当前位置:主页 > 科技论文 > 搜索引擎论文 >

垂直搜索引擎网络爬虫的研究与设计

发布时间:2016-06-09 20:02

  本文关键词:垂直搜索引擎网络爬虫的研究与设计,,由笔耕文化传播整理发布。


《北京邮电大学》 2015年

垂直搜索引擎网络爬虫的研究与设计

杜雷  

【摘要】:近几年来,互联网飞速发展,相关技术和产品日益成熟,并逐渐成为一个开放的全球性资源,它集中了海量的以网页文本、音乐、图片等等形式存储的信息。面对如此海量的信息,使用传统搜索引擎难以快速、精确地从海量信息里提取出有用的资源。为了解决以上问题,垂直搜索引擎发展起来了。 面对特定主题的垂直搜索引擎,能够提高查询的精度、深度和广度,大大提高了人们的工作和生活效率。本文首先对垂直搜索引擎做了需求与分析,之后详细的研究和设计了垂直搜索引擎中涉及到的各种技术,并编写代码实现了部分模块功能,最后设计和实现了一个面向博客领域的垂直搜索引擎。 本文的主要工作主要包括以下几个方面: 1)对垂直搜索引擎的部分模块进行了研究和编码实现 以HTML结构和概率模型为基础,编写了网页结构化抽取模块。然后使用开源分词结巴分词的API,实现了四种中文分词方法,分别为最大概率法、隐式马尔科夫模型、混合模型和使用词典的混合模型。在URL判重模块方面做了应用创新,没有使用经典的布隆过滤器算法,而是实现了此模块,每个URL占用1bit的内存地址,算法的复杂度为O(n),虽然比布隆过滤器总体占用内存要多些,但是判重正确率可以达到100%。最后研究和设计了倒排索引的建立。 2)对面向博客领域的垂直搜索引擎进行了详细设计和实现 在网页爬虫的抓取方面,以高质量网页Set为基础,使用概率法来获取网页中的下一步要抓取的高质量链接地址,并使用了改进的向量空间模型来做主题判断。在获取博客feed地址时,做了创新,使用了一种数学打分方法,当含有噪音时,就减分,这样得分最高的就是真实的feed地址,并且编程实现了RSS解析模块。在网页排序方面,以HITS为基础,结合PageRank和博客更新时间,赋予每个网页的HITS、PageRank以及博文更新时间不同的权值,设计了一套适合博客搜索类的排序算法。网页去重模块,使用了SimHash算法实现了网页去重功能,在海明距离判断模块,实现了一个时间复杂度为O(n)的程序。因为关系型数据库MySQL并发性不够高,选择使用了内存数据库MongoDB,并设计了缓存系统模块,提高了用户的查询和访问速度。

【关键词】:
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.3
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前10条

1 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期

2 罗宁;徐俊刚;郭洪韬;;基于Lucene的中文分词模块的设计和实现[J];电子技术;2012年09期

3 丁允超;范小花;;SQL注入攻击原理及其防范措施[J];重庆科技学院学报(自然科学版);2012年05期

4 陶林;谌超;强保华;王勇;;基于Hadoop的Nutch网页排序算法研究与实现[J];桂林电子科技大学学报;2013年02期

5 张浩;;网络主题爬虫技术初探[J];电子制作;2013年23期

6 胥桂仙,许建潮,连远锋,李昱翠;文本挖掘中的特征表示及聚类方法[J];吉林工学院学报(自然科学版);2002年03期

7 彭赓;范明钰;;基于改进网络爬虫技术的SQL注入漏洞检测[J];计算机应用研究;2010年07期

8 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[J];中文信息学报;2012年02期

9 丁晴;郭晨;;浅谈半结构化数据在公安信息化中的应用[J];警察技术;2010年06期

10 邹嵩;赵诗阳;周新志;;垂直搜索引擎中分词技术的算法研究[J];计算机技术与发展;2012年02期

【共引文献】

中国期刊全文数据库 前10条

1 朱学芳;冯曦曦;;面向农业主题搜索引擎设计与实现[J];安徽农业科学;2011年35期

2 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期

3 祝伟华;李嘉毅;刘斌斌;;二手汽车交易信息垂直搜索网的设计[J];重庆工学院学报(自然科学版);2008年08期

4 李敏;赵君;;垂直搜索引擎爬虫系统的设计[J];长江大学学报(自然科学版)理工卷;2010年03期

5 毕建涛;霍云福;;垂直搜索引擎赢利模式探讨[J];大连大学学报;2008年03期

6 孟时;王彦;;larbin网络爬虫的体系结构[J];电脑学习;2010年04期

7 贠晓晴;;基于.NET 3.5的网络信息采集系统设计与实现[J];电脑编程技巧与维护;2010年16期

8 陈洪猛;;基于垂直搜索技术的搜索引擎解决方案[J];电脑应用技术;2008年01期

9 赵晓峰;;基于Web的网站信息采集系统的设计与实现[J];电脑知识与技术;2008年16期

10 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期

中国重要会议论文全文数据库 前10条

1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年

2 刘源;詹舒波;;基于Solr的行业垂直搜索平台的研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年

3 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

4 单铁城;张安妮;马德辉;;基于爬虫改进算法的个性化搜索引擎应用研究[A];战略性新兴产业与科技支撑——2012年山东省科协学术年会论文集[C];2012年

5 乔媛媛;刘芳;凌艳;尹劲松;;云计算环境下MapReduce的资源建模与性能预测[A];2013年全国通信软件学术会议论文集[C];2013年

6 周利民;童珉;陈燕双;;面向互联网视频主题管理的搜索引擎关键技术研究及实现[A];中国新闻技术工作者联合会第六次会员代表大会、2014年学术年会暨第七届《王选新闻科学技术奖》和优秀论文奖颁奖大会论文集(二等奖)[C];2014年

7 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26届中国控制与决策会议论文集[C];2014年

8 陈佐旗;余柏蒗;吴健平;;基于GPU通用计算的遥感数据处理——以计算地表太阳辐射值为例[A];第十八届中国环境遥感应用技术论坛论文集[C];2014年

9 白永超;付伟;辛阳;;基于Hadoop和Nutch的分布式搜索引擎研究与仿真[A];第十九届全国青年通信学术年会论文集[C];2014年

10 李超越;徐国胜;;Hadoop公平调度算法的改进[A];第十九届全国青年通信学术年会论文集[C];2014年

中国硕士学位论文全文数据库 前10条

1 周源;基于本体的语义垂直搜索引擎研究[D];北京交通大学;2011年

2 符宇波;一种自动SQL注入攻击检测与利用系统的研究实现[D];北京交通大学;2011年

3 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年

4 文星;基于位置感知的Web文本搜索技术研究[D];大连海事大学;2011年

5 孙海东;面向医学教育视频的垂直检索的研究[D];第二军医大学;2011年

6 朱洪涛;垂直门户网站产品搜索系统的设计与实现[D];北京邮电大学;2010年

7 张锐;面向电子商务的深层网入口挖掘研究[D];杭州电子科技大学;2011年

8 王灵峰;高考信息推荐引擎的设计与实现[D];暨南大学;2011年

9 刘欢;职位匹配系统的设计与实现[D];华东师范大学;2011年

10 王培顺;互联网教育舆情监测系统的设计与实现[D];华中师范大学;2011年

【二级参考文献】

中国期刊全文数据库 前10条

1 吴祐昕;顺风;;网络搜索引擎的发展趋势分析[J];当代传播;2007年03期

2 康桂英,刘春平;新一代中文智能搜索引擎研究[J];东南大学学报(哲学社会科学版);2002年S1期

3 梁永霖;;基于Java的全文检索引擎Lucene的分析与研究[J];电脑知识与技术;2008年20期

4 黄晓华;;ASP.NET网站防SQL注入的方法研究[J];电脑知识与技术;2011年29期

5 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期

6 谌超;强保华;石龙;;基于Hadoop MapReduce的大规模数据索引构建与集群性能分析[J];桂林电子科技大学学报;2012年04期

7 张红斌;;网上求职机器人的软件设计[J];华东交通大学学报;2006年01期

8 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期

9 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期

10 胥桂仙,苏筱蔚,陈淑艳;中文文本挖掘中的无词典分词的算法及其应用[J];吉林工学院学报(自然科学版);2002年01期

中国硕士学位论文全文数据库 前4条

1 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年

2 王骏;基于垂直搜索引擎技术的房源信息分析系统的设计与实现[D];苏州大学;2006年

3 李广丽;垂直搜索引擎的研究与设计[D];华东交通大学;2008年

4 张平;基于Lucene的医学知识搜索系统设计与实现[D];重庆大学;2008年

【相似文献】

中国期刊全文数据库 前10条

1 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期

2 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期

3 肖婷;;垂直搜索引擎与旅游行业探讨[J];农业网络信息;2009年11期

4 祝奕;;垂直搜索引擎的构建与应用[J];信息与电脑(理论版);2010年01期

5 张美芳;张迎春;;浅议垂直搜索引擎服务市场的商业模式[J];现代商业;2010年06期

6 焦龙;;垂直搜索引擎在旅游企业中应用的探索[J];商场现代化;2010年08期

7 赵宏中;李亚;;垂直搜索引擎应用研究[J];现代商贸工业;2010年04期

8 陈高维;邓天权;曾云磊;王维国;张龙;;基于垂直搜索引擎的旅游线路评价模型的设计[J];科技创新导报;2010年18期

9 刘小强;;二手转让及房产租售垂直搜索引擎的设计与实现[J];三门峡职业技术学院学报;2010年03期

10 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期

中国重要会议论文全文数据库 前4条

1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年

2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

4 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年

中国重要报纸全文数据库 前10条

1 北大纵横管理顾问公司高级顾问戴晓东;[N];中国经营报;2006年

2 王艳;[N];中国旅游报;2000年

3 王靖;[N];人民日报海外版;2000年

4 杨国民;[N];经济日报;2007年

5 本报记者 王晓雁;[N];法制日报;2009年

6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;[N];计算机世界;2010年

7 中新;[N];经理日报;2008年

8 源讯 编译;[N];计算机世界;2006年

9 赛迪网 方刚;[N];中国计算机报;2000年

10 ;[N];中国贸易报;2007年

中国博士学位论文全文数据库 前5条

1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年

2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年

4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

5 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年

中国硕士学位论文全文数据库 前10条

1 海涛;垂直搜索引擎数据采集技术的研究与实现[D];华北电力大学(北京);2008年

2 崔诗远;基于垂直搜索引擎的旅行社网络营销[D];青岛大学;2009年

3 翟晓玲;面向学科的基础教育资源垂直搜索引擎的研究与实现[D];东北师范大学;2009年

4 王嘉杰;面向博客领域的垂直搜索引擎的研究与实现[D];北京邮电大学;2009年

5 刘明君;垂直搜索引擎传播学特征及应用研究[D];华中科技大学;2008年

6 黎斌;可扩展分布式垂直搜索引擎设计与实现研究[D];国防科学技术大学;2008年

7 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年

8 石占伟;垃圾页面检测及其在垂直搜索引擎中的应用[D];燕山大学;2010年

9 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年

10 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年


  本文关键词:垂直搜索引擎网络爬虫的研究与设计,由笔耕文化传播整理发布。



本文编号:55395

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/55395.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户88857***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com