当前位置:主页 > 科技论文 > 搜索引擎论文 >

云环境下搜索引擎系统关键技术研究

发布时间:2017-08-07 05:16

  本文关键词:云环境下搜索引擎系统关键技术研究


  更多相关文章: 搜索引擎 网络爬虫 全文索引 文本去重


【摘要】:随着互联网内容爆发式的增长,搜索引擎成为人们使用互联网时的主要入口。然而,面对当前互联网中的海量信息,传统搜索引擎在抓取速度、存储容量以及查准率和查全率方面很难适应现在的互联网环境。本文结合云计算相关技术,研究了搜索引擎系统中文本去重、页面索引以及网络信息采集这三个关键技术,具体工作如下:首先,为了减少存储系统中重复页面的数量,本文在传统的文本去重算法Shingling的基础上,结合LCS问题的解决方法,提出了与位置相关的改进的Shingling去重算法SWLR(Shingling with Location Relationship)。提高了文本去重的查准率和查全率。通过与基于比特位的过滤算法相结合,本文进一步提出了快速SWLR算法,实验结果表明,快速SWLR算法在没有降低相似性检测效果的前提下,显著提升了SWLR算法运算的性能。其次,为了提高页面索引中短语查询的效率,本文在倒排索引模型的基础上提出了基于链表结构的倒排索引模型,通过在倒排索引模型的Term节点中增加指向相邻关键词的指针,在通过关键词短语进行查询时,可以在单位时间内查找到相邻的关键词并进行匹配。实验结果表明,基于链表结构的倒排索引模型在索引构建、查询以及内存消耗方面均具有性能优势。最后,本文结合云计算环境,提出了一种基于Hadoop的网络爬虫系统。在该系统中,解析与爬行两个子系统并行运行,从而充分利用计算机的I/O资源和计算资源。实验结果表明,本文提出的网络爬虫系统具有很好的系统扩展能力和负载均衡能力。
【关键词】:搜索引擎 网络爬虫 全文索引 文本去重
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
  • 摘要4-5
  • Abstract5-8
  • 专用术语注释表8-9
  • 第一章 绪论9-14
  • 1.1 研究背景与意义9-10
  • 1.2 国内外研究现状10-12
  • 1.3 主要工作与章节安排12-14
  • 第二章 搜索引擎关键技术分析14-26
  • 2.1 搜索引擎系统基本原理14-18
  • 2.1.1 数据采集子系统14-17
  • 2.1.2 索引子系统17-18
  • 2.1.3 查询子系统18
  • 2.2 云环境下搜索引擎系统18-23
  • 2.2.1 云环境下搜索引擎系统特点18-19
  • 2.2.2 开源搜索引擎系统Nutch19-23
  • 2.3 云环境下搜索引擎关键技术23-25
  • 2.3.1 分词技术23
  • 2.3.2 文本去重技术23-24
  • 2.3.3 全文索引技术24
  • 2.3.4 数据采集技术24
  • 2.3.5 数据存储技术24-25
  • 2.4 本章小结25-26
  • 第三章 一种基于LCS的文本快速去重算法26-37
  • 3.1 相关研究与问题描述26-29
  • 3.2 一种基于LCS的文本去重算法29-32
  • 3.2.1 LCS算法29
  • 3.2.2 基于LCS的文本去重算法(SWLR)29-30
  • 3.2.3 快速SWLR文本去重算法30-32
  • 3.3 性能仿真及结果分析32-36
  • 3.3.1 实验环境32
  • 3.3.2 SWLR文本去重算法32-34
  • 3.3.3 快速SWLR文本去重算法34-36
  • 3.4 本章小结36-37
  • 第四章 一种基于链表结构的全文索引模型37-53
  • 4.1 相关研究与问题描述37-45
  • 4.1.1 倒排索引模型37-40
  • 4.1.2 后缀树索引模型40-42
  • 4.1.3 后缀数组索引模型42-45
  • 4.2 基于链表结构改进的倒排索引模型45-49
  • 4.2.1 改进的倒排索引模型结构设计46-47
  • 4.2.2 改进的倒排索引模型构造算法47-48
  • 4.2.3 改进的倒排索引模型查询算法48-49
  • 4.3 性能仿真及结果分析49-52
  • 4.3.1 实验环境49
  • 4.3.2 索引构建时间对比49-50
  • 4.3.3 查询时间对比50-51
  • 4.3.4 内存空间使用对比51-52
  • 4.4 本章小结52-53
  • 第五章 一种基于云环境的并行网络爬虫系统53-65
  • 5.1 相关研究与需求分析53-56
  • 5.1.1 基于Hadoop的开源网络爬虫Nutch53-55
  • 5.1.2 云环境下网络爬虫需求分析55-56
  • 5.2 基于云环境的网络爬虫系统设计56-61
  • 5.2.1 总体结构设计56-57
  • 5.2.2 数据模型设计57-58
  • 5.2.3 功能模块实现58-61
  • 5.3 性能仿真及结果分析61-64
  • 5.3.1 单机版本实验分析61-62
  • 5.3.2 分布式版本实验分析62-64
  • 5.4 本章小结64-65
  • 第六章 总结与展望65-67
  • 参考文献67-70
  • 附录1 攻读硕士学位期间撰写的论文70-71
  • 附录2 攻读硕士学位期间申请的专利71-72
  • 附录3 攻读硕士学位期间参加的科研项目72-73
  • 致谢73

【相似文献】

中国期刊全文数据库 前10条

1 戚欣;;基于本体的主题网络爬虫设计[J];武汉理工大学学报;2009年03期

2 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期

3 王江红;朱丽君;李彩虹;;一种新型网络爬虫的设计与实现[J];微计算机信息;2010年03期

4 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

5 杨靖韬;陈会果;;对网络爬虫技术的研究[J];科技创业月刊;2010年10期

6 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期

7 李志义;;网络爬虫的优化策略探略[J];现代情报;2011年10期

8 焦赛美;;网络爬虫技术的研究[J];琼州学院学报;2011年05期

9 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期

10 王娟;吴金鹏;;网络爬虫的设计与实现[J];软件导刊;2012年04期

中国重要会议论文全文数据库 前4条

1 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年

2 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年

3 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

4 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

中国硕士学位论文全文数据库 前10条

1 陶俊文;基于Heritrix框架的专业镇信息网络爬虫系统[D];华南理工大学;2015年

2 马汉超;基于主题网络爬虫的汽车行业多元信息web系统设计与实现[D];西南交通大学;2015年

3 李威;基于交通流量图的交通信息提取技术研究[D];长安大学;2015年

4 朱嵘良;分布式并行环境下的网络爬虫研究[D];中央民族大学;2015年

5 周思华;股票系统之热门话题发现子系统的设计与实现[D];哈尔滨工业大学;2015年

6 丁杰;基于网络爬虫的虚假网页主动智能检测[D];华北电力大学;2015年

7 唐华栋;网页防抓取系统的设计与实现[D];哈尔滨工业大学;2015年

8 白剑飞;基于层次主题模型的网络新闻汇聚[D];浙江大学;2015年

9 袁野;企业内网搜索引擎关键技术研究与实现[D];电子科技大学;2014年

10 滕以芳;基于本体的多媒体素材网络爬虫设计与实现[D];吉林大学;2015年



本文编号:632998

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/632998.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户373db***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com