当前位置:主页 > 科技论文 > 搜索引擎论文 >

网络信息采集与搜索系统的研究与实现

发布时间:2017-05-26 04:04

  本文关键词:网络信息采集与搜索系统的研究与实现,由笔耕文化传播整理发布。


【摘要】:互联网大数据时代已经到来,网络给人们提供了丰富的信息资源。面对海量的互联网信息,如何快速准确的获取有价值的信息成为了一个难题。信息采集与检索系统应用而生,但是通用的全网搜索引擎在信息采集时忽略了信息的主题和处理顺序,致使搜索结果主题宽泛,夹杂不相关信息,需对其进行“二次处理”才能获得有价值的信息。 针对这一问题本文研究了信息采集的相关技术和方法,提出了面向具体领域的站内深度信息的采集与搜索的方法,并实现了信息索引的构建及动态维护和优化,,提供高质量的站内信息搜索服务。本文所做工作概括为以下三方面: 1)对信息采集工具Nutch、分布式数据处理框架Hadoop的文件系统和MapReduce工作流程进行了研究,实现了Nutch的分布式信息采集,将非结构化的网络信息转变为结构化的文件存储。 2)通过对索引工具Lucene倒排索引的研究,为采集所得的规范化文件信息创建了倒排索引,为索引的查询和进一步处理打好基础;提出并建立了索引池模型,利用索引评估函数,实现对索引池的维护及动态优化,提高了索引质量。 3)设计开发了网络信息采集与搜索系统,并提供用户兴趣爱好分类收藏和信息定时推送服务。
【关键词】:信息采集 Nutch Hadoop 倒排索引 信息搜索
【学位授予单位】:河北工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • ABSTRACT6-9
  • 第一章 绪论9-13
  • 1.1 课题研究的背景与意义9
  • 1.2 国内外研究概况9-11
  • 1.2.1 信息采集与搜索的发展现状9-10
  • 1.2.2 信息采集与搜索的发展趋势10-11
  • 1.3 本文主要工作及章节安排11-12
  • 1.3.1 本文主要工作11-12
  • 1.3.2 本文组织结构12
  • 1.4 本章小结12-13
  • 第二章 信息采集技术的研究13-33
  • 2.1 信息采集定义13
  • 2.2 信息采集工具 Nutch 的研究13-17
  • 2.2.1 Nutch 概述13-14
  • 2.2.2 Nutch 网络爬虫 Crawler 的原理14-15
  • 2.2.3 文本库的爬取与构建15-16
  • 2.2.4 爬虫的个性化配置16-17
  • 2.3 分布式系统框架 Hadoop17-24
  • 2.3.1 Hadoop 概述17-18
  • 2.3.2 Hadoop 文件系统 HDFS18-20
  • 2.3.3 MapReduce 研究20-24
  • 2.4 信息采集的实现24-30
  • 2.4.1 Nutch 爬虫的安装测试24-27
  • 2.4.2 Nutch 源码导入开发环境27
  • 2.4.3 IKAnalyzer 中文分词的引入27-28
  • 2.4.5 分布式运行环境的搭建28-30
  • 2.5 实验结果及分析30-31
  • 2.6 本章小结31-33
  • 第三章 索引技术的研究33-45
  • 3.1 信息索引33-34
  • 3.2 Lucene 与倒排索引34-35
  • 3.2.1 Lucene 概况34
  • 3.2.2 倒排索引34-35
  • 3.3 索引的创建与搜索35-38
  • 3.3.1 Lucene 的索引创建工具35-36
  • 3.3.2 Lucene 倒排索引的创建36-37
  • 3.3.3 基于 Lucene 的索引搜索37-38
  • 3.4 索引的维护38-43
  • 3.4.1 池化技术38-39
  • 3.4.2 索引池39-41
  • 3.4.3 索引池的实现41-43
  • 3.5 实验结果及分析43-44
  • 3.6 本章小结44-45
  • 第四章 信息采集与搜索系统的设计与实现45-55
  • 4.1 系统总体结构设计45
  • 4.2 数据库设计45-48
  • 4.3 系统主要模块设计48-53
  • 4.3.1 权限管理模块48-49
  • 4.3.2 信息采集模块49-51
  • 4.3.3 搜索结果模块51-53
  • 4.4 本章小结53-55
  • 第五章 总结与展望55-57
  • 5.1 总结55
  • 5.2 展望55-57
  • 参考文献57-61
  • 攻读硕士学位期间所取得的相关科研成果61-63
  • 致谢63-64

【相似文献】

中国期刊全文数据库 前10条

1 常天庆;张波;王钦钊;;坦克嵌入式训练系统信息采集与处理技术[J];装甲兵工程学院学报;2008年06期

2 徐枫;郑植;;分布式专业信息采集器的设计与开发[J];中国传媒科技;2008年05期

3 冷先刚;熊前兴;刘扬军;马坡;王生;;地表水质量信息采集与分析系统设计[J];计算机应用与软件;2009年02期

4 ;警用便携式身份信息采集比对终端[J];警察技术;2009年03期

5 高靖;王伟峰;赵军宝;;信息采集“触角”的智能化蜕变[J];国家电网;2009年08期

6 许亮;;信息采集与传输在水文遥测系统中应用[J];水利科技与经济;2011年02期

7 徐颖;李倩;;基于互联网社区的消费者需求信息采集策略[J];图书情报工作;2011年24期

8 郑旭;高胜;;用电信息采集“云”计算应用研究[J];信息通信;2012年05期

9 张成名;罗坤;蔡延曦;;通用装备单装信息采集及传输设备设计[J];计算机测量与控制;2012年08期

10 西里;食品安全计划在行动——从信息采集入手[J];中国计算机用户;2005年Z2期

中国重要会议论文全文数据库 前10条

1 李静;张建;李淼;胡泽林;杨巍;张浩东;;便携式农田信息采集与管理系统的设计[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年

2 谭亮;王荣成;;基于船舶网络的信息采集性能分析与系统优化[A];2008年MIS/S&A学术交流会议论文集[C];2008年

3 周洪清;;客户动销信息采集工作的思考[A];湖北省烟草学会2007年学术年会论文集[C];2007年

4 刘丽丽;;一种用于加油站信息采集的中控机设计[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年

5 蔡义华;刘刚;;便携式农田信息采集与无线传输系统研究[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年

6 王坤;郭起云;郭光;;大数据时代档案信息采集新思路[A];2013年海峡两岸档案暨缩微学术交流会论文集[C];2013年

7 罗海勇;李锦涛;赵方;朱珍民;林权;;温室无线测控网络信息采集分系统设计研究[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年

8 陈渝光;施海;游四海;廖仕利;;基于车载网络的多模态信息采集[A];四川省电工技术学会第九届学术年会论文集[C];2008年

9 高锦超;柯赓;;基于网络的地理信息采集和管理系统[A];'2005数字江苏论坛电子政务与地理信息技术论文专辑[C];2005年

10 陈凌;张阳阳;陈宏;刘红漫;;《电光与控制》发行工作中的问题及解决办法[A];第7届中国科技期刊青年编辑学术研讨会暨中国科技期刊的经营与发展论坛文集[C];2007年

中国重要报纸全文数据库 前10条

1 沈雪;福泉把派出所基础信息采集纳入“政府工程”[N];人民公安报;2007年

2 记者 陈磊;陕西年内将建成500个标准化刑侦信息采集室[N];人民公安报;2010年

3 吴苏 杨一弘;推进信息采集 筑牢基础环节[N];黑龙江经济报;2010年

4 李晓楠、杨勇;8650部队信息采集员制度拓宽民主渠道[N];人民武警报;2011年

5 本报首席记者 彭文辉 本报记者 方晓;信息采集:“三网”建设取得实效的生命线[N];宜春日报;2013年

6 秦旭 傅鉴;青羊建成规范化基层信息采集室[N];人民公安报;2007年

7 马晓玲 陈虹;紫云派出所“信息采集”结硕果[N];云南经济日报;2007年

8 华晖盛世技术开发有限公司 朱自力;信息采集 潜力巨大[N];计算机世界;2001年

9 记者 朱士燕;信息采集准确率达到98%以上[N];吐鲁番报(汉);2009年

10 怀清萍 记者 邹伟军;中小企业融资信息采集及公布制度建立[N];九江日报;2009年

中国博士学位论文全文数据库 前2条

1 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年

2 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年

中国硕士学位论文全文数据库 前10条

1 杨凡;面向移动设备的信息采集和处理研究与实现[D];西北大学;2012年

2 董飞;用电信息采集一体化建设研究[D];大连海事大学;2011年

3 张巧珍;基于价值链的企业信息采集研究[D];华中师范大学;2013年

4 王凌霄;身份证阅读器信息采集与处理系统的设计与实现[D];华中科技大学;2012年

5 陈松涛;烟草公司信息采集与分析系统的设计和实现[D];吉林大学;2013年

6 孙梦勇;基于本体进化的专题信息采集方法研究[D];南京航空航天大学;2014年

7 卢尚才;高速旋转体信息采集与光传输系统的研究与实现[D];暨南大学;2008年

8 程涛;个性化网络信息采集处理系统的设计与实现[D];北京邮电大学;2011年

9 王小强;基于农业信息采集嵌入式系统的设计与实现[D];电子科技大学;2011年

10 赵佳鹤;基于语义分析的网络信息采集算法研究与应用[D];大连理工大学;2006年


  本文关键词:网络信息采集与搜索系统的研究与实现,由笔耕文化传播整理发布。



本文编号:395690

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/395690.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c645b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com