当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种基于Hadoop的分布式网络爬虫的研究与设计

发布时间:2017-04-27 17:00

  本文关键词:一种基于Hadoop的分布式网络爬虫的研究与设计,,由笔耕文化传播整理发布。


【摘要】:信息技术的飞速发展,尤其是近些年来互联网和移动互联网的发展,深刻的改变着我们生活的世界。信息技术产业以及信息技术与传统产业的结合已经成为世界经济的重要组成部分。而当前随着网络将越来越多事物连接起来,人们需要面对的信息量也激增了,因此一个新的课题也就产生了——如何找到有价值的信息。对于个体用户面对互联网的情况,这一问题的答案就是搜索引擎。而对于想获得海量数据当中隐藏的价值的企业,这一问题的答案就是数据分析与数据挖掘。对于这些解决办法而言,信息处理的第一步就是获取互联网上的海量的信息。本论文的研究课题就是从互联网上获取海量信息的网络爬虫技术,由于当前单机平台已经难以应对互联网大数据量的挑战,本课题借助分布式平台来作为应用的底层平台。 本论文的主要研究工作包括以下几个方面: 网络爬虫研究的背景技术与相关理论。互联网信息的爆发式增长,衍生出了搜索引擎技术,而网络爬虫是搜索引擎的重要组成部分。本论文研究分析了搜索引擎的基本工作原理与关键模块的技术细节,主要是建立搜索索引和搜索结果排序的技术原理。在这些研究的基础上,本论文对网络爬虫的原理进行了分析。对于网络爬虫涉及的一些关键的技术给出了详细的介绍与分析。 本论文研究了云计算发展状况与Hadoop分布式平台的主要构成和关键技术,并介绍了云计算的产生与发展现状,详细研究了云计算的关键技术特征。Hadoop分布式平台的主要构成包括HDFS、 MapReduce编程模型和HBase分布式数据库。本论文对于他们的技术细节进行了分析,并着重分析了Hadoop平台作为分布式开发框架的主要特征和优势。 本课题完成了分布式网络爬虫的设计实现、部署与测试。在前述技术研究的基础上,本课题研究并设计了基于Hadoop分布式平台的网络爬虫,详细分析了各关键模块的主要功能,以及在MapReduce编程框架下的实现。完成了该网络爬虫在20台服务器组成的小型服务器集群上的部署与测试。最后,本论文通过实验证明这套设计方案切实可行,该设计是使用开源分布式系统的很好地尝试。本课题对网络爬虫技术和分布式系统的研究很有参考价值。
【关键词】:网络爬虫 云计算 分布式系统 Hadoop
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要4-6
  • ABSTRACT6-11
  • 第一章 绪论11-15
  • 1.1 课题的研究背景11-12
  • 1.2 课题的研究内容与现状12-14
  • 1.3 本文的内容和结构14
  • 1.4 本章小结14-15
  • 第二章 相关研究工作综述15-34
  • 2.1 搜索引擎技术综述15-19
  • 2.1.1 搜索引擎中索引的建立16-18
  • 2.1.2 搜索引擎中搜索结果排序18-19
  • 2.2 网络爬虫概述19-22
  • 2.2.1 网络爬虫的基本构成19-20
  • 2.2.2 网络爬虫的研究现状20-22
  • 2.3 云计算发展综述22-27
  • 2.3.1 云计算的发展现状23-24
  • 2.3.2 云计算的特点24-25
  • 2.3.3 云计算的体系结构与服务层次25-27
  • 2.4 Hadoop分布式系统综述27-33
  • 2.4.1 Hadoop的分布式文件系统27-28
  • 2.4.2 HBase数据库与Zookeeper28-30
  • 2.4.3 MapReduce分布式框架编程模型30-33
  • 2.5 本章小结33-34
  • 第三章 分布式网络爬虫的分析与概要设计34-47
  • 3.1 分布式网络爬虫系统布局34-36
  • 3.1.1 分布式平台的系统架构34-35
  • 3.1.2 分布式爬虫的总体流程设计35-36
  • 3.2 网络爬虫的爬取相关技术分析36-41
  • 3.2.1 网络爬虫的爬取深度策略36-37
  • 3.2.2 Robots 协议简介37-38
  • 3.2.3 DNS以及爬虫相关解决方案分析38-39
  • 3.2.4 网络爬虫消重策略分析39-40
  • 3.2.5 跨语言服务开发框架Apache Thrift40-41
  • 3.3 分布式网络爬虫的结构设计41-46
  • 3.3.1 配置模块设计42-44
  • 3.3.2 存储模块设计44-46
  • 3.3.3 任务管理模块设计46
  • 3.3.4 爬取模块设计46
  • 3.4 本章小结46-47
  • 第四章 分布式网络爬虫的详细设计与实现47-57
  • 4.1 分布式网络爬虫的接口设计47-51
  • 4.1.1 网页接口的设计与实现47-48
  • 4.1.2 Thrift程序接口的设计与实现48-51
  • 4.2 分布式网络爬虫的数据信息51-52
  • 4.2.1 URL的状态信息51
  • 4.2.2 页面信息51
  • 4.2.3 页面解析信息51-52
  • 4.3 分布式爬虫的主要模块分析与实现52-56
  • 4.3.1 URL注入模块52-53
  • 4.3.2 待爬取URL列表生成模块53-55
  • 4.3.3 爬取与更新模块55-56
  • 4.4 本章小结56-57
  • 第五章 分布式网络爬虫的实验测试与分析57-69
  • 5.1 分布式平台的软硬件环境57-60
  • 5.1.1 硬件环境介绍57-58
  • 5.1.2 软件环境介绍58-60
  • 5.2 分布式网络爬虫的部署60-64
  • 5.2.1 系统环境配置60-63
  • 5.2.2 爬虫的部署与基本测试63-64
  • 5.3 分布式网络爬虫的系统测试与分析64-68
  • 5.3.1 基本功能测试65-66
  • 5.3.2 性能测试66-67
  • 5.3.3 测试结果分析67-68
  • 5.4 本章小结68-69
  • 第六章 总结与展望69-71
  • 6.1 总结69-70
  • 6.2 工作展望70-71
  • 参考文献71-73
  • 致谢73

【参考文献】

中国期刊全文数据库 前10条

1 李翔;刘文兵;马超;刘海艳;;基于云计算的空间数据处理技术[J];测绘与空间地理信息;2012年09期

2 栾亚建;黄烂

本文编号:330997


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/330997.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ed2aa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com