当前位置:主页 > 科技论文 > 搜索引擎论文 >

垂直搜索引擎中主题网络爬虫算法研究

发布时间:2016-07-06 11:03

  本文关键词:垂直搜索引擎中主题网络爬虫算法研究,由笔耕文化传播整理发布。


《山东师范大学》 2015年

垂直搜索引擎中主题网络爬虫算法研究

张环  

【摘要】:随着互联网络技术的迅猛发展,网络资源呈指数形式增长,面向整个网络信息的通用搜索引擎已经不能满足不同领域的用户精确的检索需求,在这种背景下,垂直搜索引擎应运而生。 主题网络爬虫是垂直搜索引擎的核心部分,其爬行质量和效率直接决定了垂直搜索引擎的性能。与通用网络爬虫不同的是,主题网络爬虫只抓取与特定主题相关的网页同时过滤无关网页,具有专业,精确,深入的特点。传统的主题网络爬虫通过分析网页的全部内容判定候选链接的相关性,,现今的网页内容往往包含多个不同的主题,对网页的全部内容进行计算很可能由于网页中的噪音而影响结果的判定。 本文对主题网络爬虫的相关性判定算法和搜索策略进行了研究,针对传统的主题网络爬虫的不足提出一种基于候选链接主题边缘文本的主题爬虫,本文的主要研究工作如下: 首先,利用杜威十进分类法的特性绘制二维坐标提取候选链接主题边缘文本。杜威十进分类法是一种层次分类法,由于词的多义性,每个主题关键词对应唯一或者多个的杜威分类号码,根据分类号码可以判定关键词是否是同一主题或者相近主题。候选链接主题边缘文本是一组与锚文本关键词词义相近的关键词,主要包括锚文本关键词和网页正文关键词两个部分。该主题爬虫利用锚文本和与锚文本主题词义相近网页正文判定候选链接的相关性,避免噪音对判定结果的影响。 其次,构建朴素贝叶斯文本文本分类器分析候选链接主题边缘文本,指导主题网络爬虫爬行。朴素贝叶斯分类算法是目前为止文本分类中最有效的分类算法。锚文本关键词更能代表候选链接的主题含义,对锚文本关键词加权,突出锚文本关键词在相关性判定时的重要性。 最后,查准率和模拟查全率作为实验的评估指标,比较本文提出的主题网络爬虫与其他爬虫算法在抓取质量方面的优劣。统计和分析实验所得的数据,实验结果表明本文提出的主题网络爬虫在爬行质量方面,效果更好。

【关键词】:
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3;TP393.092
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前10条

1 彭涛;孟宇;左万利;王英;胡亮;;主题爬行中的隧道穿越技术[J];计算机研究与发展;2010年04期

2 曾广朴;范会联;;基于遗传算法的聚焦爬虫搜索策略[J];计算机工程;2010年11期

3 刘徽;黄宽娜;余建桥;;一种Deep Web爬虫爬行策略[J];计算机工程;2012年11期

4 罗欣,夏德麟,晏蒲柳;基于词频差异的特征选取及改进的TF-IDF公式[J];计算机应用;2005年09期

5 熊忠阳;史艳;张玉芳;;基于维基百科和网页分块的主题爬行策略[J];计算机应用;2011年12期

6 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期

7 黄莉;王成良;杨铮;;面向主题网络爬行的智能隧道穿越算法研究[J];计算机应用研究;2009年08期

8 王振宇;唐远华;郭力;;面向分层结构的网页分类与抓取[J];计算机工程与科学;2012年11期

9 白玉昭;梁久祯;;基于概率模型的主题爬虫的研究和实现[J];计算机工程与科学;2013年01期

10 叶育鑫;欧阳丹彤;;基于语义的主题爬行策略[J];软件学报;2011年09期

【共引文献】

中国期刊全文数据库 前10条

1 王正;陆余良;刘金红;施凡;;基于Lucene的互联网文献信息检索系统的研究[J];安徽大学学报(自然科学版);2009年05期

2 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期

3 李春杰;崔红霞;;基于多Agent搜索行为分析的用户兴趣模型[J];吉林大学学报(信息科学版);2010年02期

4 陈悦;陈运;杨义先;胡迪;;基于遗传算法的聚焦爬虫搜索策略设计与研究[J];成都信息工程学院学报;2011年05期

5 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期

6 祝伟华;李嘉毅;刘斌斌;;二手汽车交易信息垂直搜索网的设计[J];重庆工学院学报(自然科学版);2008年08期

7 赵京桥;;中国雅虎经营模式转型原因分析[J];财贸经济;2008年10期

8 毕建涛;霍云福;;垂直搜索引擎赢利模式探讨[J];大连大学学报;2008年03期

9 杨仁广;孟祥增;;网络多媒体教学资源主题搜索研究[J];电化教育研究;2009年05期

10 李艳玲;戴冠中;覃森;;快速的文本倾向性分类方法(英文)[J];电子科技大学学报;2007年06期

中国重要会议论文全文数据库 前10条

1 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年

2 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年

3 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年

4 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年

5 吴丽辉;张凯;张刚;王斌;;天罗Web信息采集系统中的性能优化[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

6 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

7 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

8 刘莉;肖诗斌;王涛;施水才;;基于RSS的分布式博客搜索引擎设计[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

9 刘宝良;李建中;;crlib:可交互异构Crawler框架的设计与实现[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

10 单铁城;张安妮;马德辉;;基于爬虫改进算法的个性化搜索引擎应用研究[A];战略性新兴产业与科技支撑——2012年山东省科协学术年会论文集[C];2012年

中国博士学位论文全文数据库 前10条

1 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年

2 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年

3 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年

4 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年

5 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年

6 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年

7 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年

8 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年

9 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年

10 吕凝;基于内容的视频数据库多模式检索方法研究[D];吉林大学;2005年

中国硕士学位论文全文数据库 前10条

1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年

2 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年

3 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年

4 苏佩钿;中小学机房管理系统设计与实现[D];华东师范大学;2010年

5 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年

6 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年

7 李元乾;基于移动搜索用户关联的信息检索研究[D];北京交通大学;2010年

8 邓忠莹;中文文本倾向性分类系统研究[D];昆明理工大学;2009年

9 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年

10 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年

【二级参考文献】

中国期刊全文数据库 前10条

1 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期

2 康桂英,刘春平;新一代中文智能搜索引擎研究[J];东南大学学报(哲学社会科学版);2002年S1期

3 赵文;唐建雄;高庆锋;;基于统计的中文网页正文抽取的研究[J];电脑知识与技术;2008年01期

4 贺亚锋,张颖;Web资源虚拟图书馆研究[J];大学图书馆学报;2000年05期

5 侯汉清,薛鹏军;基于知识库的网页自动标引和自动分类系统的设计[J];大学图书馆学报;2004年01期

6 贾福林,王国仁,于戈;基于DOM的XML数据库的索引技术研究[J];计算机研究与发展;2004年01期

7 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期

8 彭涛;孟宇;左万利;王英;胡亮;;主题爬行中的隧道穿越技术[J];计算机研究与发展;2010年04期

9 叶育鑫;欧阳丹彤;领吉;张永刚;;本体与规则整合的推理方法研究及设计[J];吉林大学学报(工学版);2009年05期

10 李嘉佑;贾自艳;何清;史忠植;;基于Web挖掘的网页清洗技术[J];计算机工程与应用;2006年25期

中国博士学位论文全文数据库 前2条

1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

2 李赟;基于中文维基百科的语义知识挖掘相关研究[D];北京邮电大学;2009年

中国硕士学位论文全文数据库 前4条

1 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年

2 董静;中文网页形式自动分类[D];大连理工大学;2006年

3 刘斌;基于Web的HTML网页清洗技术的研究与实现[D];华北电力大学(北京);2007年

4 何兴无;基于用户行为和遗传算法的用户建模研究[D];重庆大学;2007年

【相似文献】

中国期刊全文数据库 前10条

1 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期

2 王江红;朱丽君;李彩虹;;一种新型网络爬虫的设计与实现[J];微计算机信息;2010年03期

3 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

4 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期

5 焦赛美;;网络爬虫技术的研究[J];琼州学院学报;2011年05期

6 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期

7 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期

8 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期

9 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期

10 杨松梅;;网络爬虫[J];硅谷;2009年15期

中国重要会议论文全文数据库 前5条

1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年

2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年

3 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

4 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

5 王庆广;何力;韩伟红;;基于爬虫的有害网站发现与判别系统的实现[A];第27次全国计算机安全学术交流会论文集[C];2012年

中国硕士学位论文全文数据库 前10条

1 金梅;网络爬虫性能提升与功能拓展的研究与实现[D];吉林大学;2012年

2 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年

3 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年

4 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年

5 陈奋;过滤型网络爬虫的研究与设计[D];厦门大学;2007年

6 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年

7 刘晶晶;面向微博的网络爬虫研究与实现[D];复旦大学;2012年

8 耿令宝;分布式环境下的网络爬虫系统研究与优化[D];北京邮电大学;2015年

9 谭龙远;基于领域的网络爬虫技术的研究与实现[D];武汉理工大学;2009年

10 张红云;基于页面分析的主题网络爬虫的研究[D];武汉理工大学;2010年


  本文关键词:垂直搜索引擎中主题网络爬虫算法研究,由笔耕文化传播整理发布。



本文编号:66116

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/66116.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ab986***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com