当前位置:主页 > 科技论文 > 搜索引擎论文 >

含有丰富结构化数据的Web页面分类技术的研究

发布时间:2017-07-02 15:11

  本文关键词:含有丰富结构化数据的Web页面分类技术的研究,由笔耕文化传播整理发布。


【摘要】:Web页面的主题识别和分类是垂直搜索引擎的核心,是结构化数据抽取的前提,具有重要的学术价值,工程应用也非常广泛.以往的工作多以定向爬虫技术来解决垂直搜索引擎数据采集的专业化问题,而Web页面的主题识别和分类也多采用传统的文本分类方法.针对含有丰富结构化数据的Web页面,提出了复用结构化数据抽取模板来进行Web页面主题识别的分类框架.该框架首先解析Web页面的组织结构,通过属性探测算法,获得Web页面所包含的主题关键词.进一步通过计算主题关键词与结构化抽取模板的相似性来判定Web页面的主题并按照领域进行分类.该方法避免了主题爬虫对URL格式严重依赖的问题,分类准确率也高于传统的文本分类方法.通过实验证明了框架在含有丰富结构化数据的Web页面分类方面的有效性.
【作者单位】: 东北大学信息科学与工程学院;
【关键词】垂直搜索 结构化数据 网页分类 模板 相似性计算
【基金】:中央高校基本科研业务费基金项目(N110404016,N100704001) 国家自然科学基金项目(61173027) 教育部-英特尔信息技术专项科研基金项目(MOE-INTEL-2012-06)
【分类号】:TP391.3
【正文快照】: 近年来,通用搜索引擎技术已经取得了长足的发展,其应用也非常广泛.但是,通用搜索引擎无法满足一些特定互联网用户的专业性搜索需求,尤其对于企业用户,他们将领域数据作为经营和分析的基础,对于领域数据有着更专业与全面的要求.为了解决这个问题,垂直搜索技术应运而生,并成为业

【参考文献】

中国期刊全文数据库 前5条

1 朱红斌;蔡郁;;基于主动学习支持向量机的文本分类[J];计算机工程与应用;2009年02期

2 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期

3 周炎涛;唐剑波;吴正国;;基于向量空间模型的多主题Web文本分类方法[J];计算机应用研究;2008年01期

4 刘华;;文本分类相似度模型和概率模型的实现与比较[J];现代图书情报技术;2006年04期

5 李敏;余正涛;;结合加权特征向量空间模型和RBPNN的文本分类方法[J];计算机系统应用;2012年12期

【共引文献】

中国期刊全文数据库 前10条

1 王正;陆余良;刘金红;施凡;;基于Lucene的互联网文献信息检索系统的研究[J];安徽大学学报(自然科学版);2009年05期

2 蔡华利;刘鲁;王理;;突发事件Web新闻多层次自动分类方法[J];北京工业大学学报;2011年06期

3 毛晓蛟;;搜索引擎中网络蜘蛛的研究与实现[J];电脑编程技巧与维护;2010年18期

4 拓守恒;;基于改进PSO的SVM文本分类研究[J];电脑开发与应用;2010年10期

5 唐波;;网络爬虫的设计与实现[J];电脑知识与技术;2009年11期

6 周民;邱雅;王华彬;;网络舆情分析中智能爬虫的设计[J];电脑知识与技术;2011年33期

7 王岩;;搜索引擎中网络爬虫技术的发展[J];电信快报;2008年10期

8 黄敏;;网络舆情热点挖掘算法研究与实现[J];安徽大学学报(自然科学版);2012年06期

9 屠要峰;钱煜明;;一种基于海量数据的信息云系统及其关键技术研究[J];电信科学;2012年12期

10 赵前东;叶猛;;微博热点话题检测系统的设计与实现[J];电视技术;2013年03期

中国重要会议论文全文数据库 前3条

1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年

2 单铁城;张安妮;马德辉;;基于爬虫改进算法的个性化搜索引擎应用研究[A];战略性新兴产业与科技支撑——2012年山东省科协学术年会论文集[C];2012年

3 李晋宏;徐洁;唐存雨;;聚类算法在试题存储中的应用研究[A];全国冶金自动化信息网2013年会论文集[C];2013年

中国博士学位论文全文数据库 前5条

1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年

2 刘笑嶂;核方法的若干关键问题研究及其在人脸图像分析中的应用[D];中山大学;2010年

3 郝立柱;汉语文本自动分类[D];吉林大学;2008年

4 冷彪;三维模型检索的特征描述和相关性反馈算法的研究[D];清华大学;2009年

5 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年

中国硕士学位论文全文数据库 前10条

1 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年

2 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年

3 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年

4 晋小玲;图转导理论的研究与应用[D];华北电力大学(北京);2011年

5 乔宇;一种基于主题数据的存取调度模型的研究[D];北京邮电大学;2011年

6 陈冲;互联网中文文本分类的研究与应用[D];北京邮电大学;2011年

7 郭艳芬;林业主题搜索引擎的设计与实现[D];北京林业大学;2011年

8 连惠杰;基于主题的教育信息定向采集系统[D];南京理工大学;2011年

9 陈宗利;面向SNS的社会网络数据抓取与经验性分析[D];长安大学;2011年

10 卢凡;基于领域本体的主题爬虫系统研究与实现[D];电子科技大学;2011年

【二级参考文献】

中国期刊全文数据库 前10条

1 许增福,梁静国,田晓宇;基于FVSM和自组织映射网络的Web文本自动分类方法[J];哈尔滨工业大学学报;2004年09期

2 李伦波;马广富;;基于RBPNN的退化交通标志图像的识别算法[J];吉林大学学报(工学版);2008年06期

3 刘娇蛟,龚丽,李建华;基于本体实现对网页文本的自动主题分类[J];计算机工程;2003年11期

4 李盛韬,赵章界,余智华;基于主题的Web信息采集系统的设计与实现[J];计算机工程;2003年17期

5 柳松;王展;;基于径向基概率神经网络的人脸识别方法[J];计算机工程与科学;2006年02期

6 邹娟;周经野;邓成;刘玲;;基于多重启发式规则的中文文本特征值提取方法[J];计算机工程与科学;2006年08期

7 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期

8 李卫;刘建毅;何华灿;王枞;;基于主题的智能Web信息采集系统的研究与实现[J];计算机应用研究;2006年02期

9 张宇,刘挺,文勖;基于改进贝叶斯模型的问题分类[J];中文信息学报;2005年02期

10 郑海清;林琛;牛军钰;;一种基于紧密度的半监督文本分类方法[J];中文信息学报;2007年03期

中国重要会议论文全文数据库 前1条

1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

【相似文献】

中国期刊全文数据库 前10条

1 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期

2 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期

3 王雪冬;李伟英;李强;;商业主题搜索引擎的研究[J];商场现代化;2008年29期

4 张敏;;基于本体的垂直搜索引擎的研究[J];软件导刊;2010年02期

5 余栋柱;黄讴;;用Nutch构建垂直搜索引擎的方案[J];知识经济;2009年14期

6 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期

7 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期

8 陈洪猛;;基于垂直搜索技术的搜索引擎解决方案[J];电脑应用技术;2008年01期

9 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期

10 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期

中国重要会议论文全文数据库 前10条

1 李立宇;唐世渭;杨冬青;叶恒强;王腾蛟;;COMMIX-Classifier—自动网页分类系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

2 程静;邱玉辉;;Web Mining中的网页分类[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

4 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 廖磊;林秀玉;;EPS系统在土地利用更新调查中的应用[A];江苏省测绘学会2007'学术年会论文集[C];2008年

6 廖磊;林秀玉;;EPS系统在土地利用更新调查中的应用[A];华东地区第十次测绘学术交流大会论文集[C];2007年

7 宋晓雷;王素格;李红霞;;面向特定领域产品评价对象自动识别研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

8 林子雨;左思强;赖永炫;张东站;;DB&IR系统研究综述[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

9 陈梅;曲宏远;;探索CATIA V5在教练机管路系统中的应用[A];贵州省科学技术优秀学术论文集(2004年度)[C];2004年

10 孙海才;疏谦;马钺;毕欣;;用于香烟包装质量检测的图像匹配算法研究[A];第七届全国信息获取与处理学术会议论文集[C];2009年

中国重要报纸全文数据库 前10条

1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年

2 ;制作一个能自动统计成绩的模板[N];电子报;2009年

3 艾思平翻译;视频编码软件CCE SP2操作指南(20)[N];电子报;2009年

4 李坤;你就是明日之星[N];中国计算机报;2008年

5 阎岩;易飞ERP的两大特色[N];中国计算机报;2002年

6 高雪娟;让梦想点亮世界[N];中国计算机报;2005年

7 李琨;异构时代,谁将统一度量衡?[N];中国计算机报;2006年

8 Howard Marks;挖掘ILM的金矿[N];计算机世界;2007年

9 张小西;BI工具与隐私数据[N];网络世界;2006年

10 郭莹;全文检索市场空间大[N];中国计算机报;2006年

中国博士学位论文全文数据库 前10条

1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年

2 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年

3 汲业;面向图像的垂直搜索引擎关键技术研究[D];大连海事大学;2013年

4 阎红灿;面向Web的XML文档数据管理及分类检索技术研究[D];天津大学;2009年

5 辜寄蓉;基于元数据的综合数据管理与信息共享[D];成都理工大学;2003年

6 楼偶俊;基于特征的第二代图像与视频水印技术研究[D];吉林大学;2009年

7 李鹏;Web环境下企业产品信息共享的若干关键技术研究[D];西北工业大学;2006年

8 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年

9 周,

本文编号:510406


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/510406.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户18353***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com