当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向多爬虫的监控系统的设计与实现

发布时间:2017-08-07 14:02

  本文关键词:面向多爬虫的监控系统的设计与实现


  更多相关文章: Heritrix 网络爬虫 监控系统 Restlet Yii


【摘要】:随着我国网络技术的快速发展,互联网上的数据也成指数级的增长,人们越来越关注如何快速有效地从网络里提取出有价值的信息,使之在决策阶段起到作用。这给现在的搜索引擎技术带来了很大的挑战。而搜索引擎的数据源是来自于网络爬虫爬取的信息,一个搜索引擎搜索结果的数量和质量在一定程度上取决于网络爬虫爬取内容的数量和质量,而如何组织这些爬虫也成了一件能影响爬虫的爬取结果的事情。随着在服务器上部署的爬虫的增加,对爬虫监控系统的需求也越来越紧迫。监控管理系统的部署将会给爬虫的管理带来很大的方便。 基于上述背景,本文提出了一个基于开源爬虫的监控系统的设计和实现方案,帮助爬虫管理员能在有效的时间内分析多个爬虫任务的状态,并能对多个分布式的爬虫进行控制,根据爬虫的状态远程地添加爬取任务等操作,提高了爬虫管理的效率,从而更好地为项目组其它的功能模块提供更好的底层数据支持。 本论文基于Yii开发框架和开源的Java爬虫Heritrix,实现了一个面向多个分布式爬虫的监控系统。首先,研究了Yii开发框架和Heritrix源代码,进行了系统的需求分析,提出了面向多爬虫监控系统的逻辑架构方案和物理部署架构方案。其次,对系统的主要功能模块进行了划分,并对系统的主要工作流程进行了详细的分析。之后对各个模块进行了具体的实现,其中重点介绍了功能描述和工作原理。 最后,本文针对所实现的监控系统进行了详细的测试,分别对各个功能模块和整体进行了详细的功能测试。对得到的测试的结果进行了分析,测试结果符合要求。除此之外,本文还对系统中不完善的地方提出了改进的计划。
【关键词】:Heritrix 网络爬虫 监控系统 Restlet Yii
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP277
【目录】:
  • 摘要4-5
  • ABSTRACT5-10
  • 第一章 引言10-16
  • 1.1 研究背景及意义10-13
  • 1.2 研究内容及目标13
  • 1.3 国内外研究现状13-14
  • 1.4 论文的章节安排14-15
  • 1.5 本章小结15-16
  • 第二章 相关技术研究16-29
  • 2.1 网络爬虫Heritrix16-24
  • 2.1.1 Heritrix架构分析16-17
  • 2.1.2 CrawlJob抓取任务类17
  • 2.1.3 CrawlController中央控制器17-18
  • 2.1.4 Frontier链接工厂18-20
  • 2.1.5 多线程相关的ToeThread和ToePool20-22
  • 2.1.6 处理链和Processor22-24
  • 2.2 REST架构和Restful技术24-28
  • 2.2.1 REST简介24-25
  • 2.2.2 RestFul Web服务的架构25-27
  • 2.2.3 RESTful Web服务框架27-28
  • 2.3 Yii框架28
  • 2.4 本章小结28-29
  • 第三章 爬虫监控系统的需求分析29-34
  • 3.1 需求概述29
  • 3.2 运行环境需求29
  • 3.2.1 硬件环境需求29
  • 3.2.2 软件环境需求29
  • 3.3 功能需求29-32
  • 3.3.1 爬虫的状态监控功能29-30
  • 3.3.2 爬取结果的可视化展示功能30
  • 3.3.3 动态新增加任务的功能30-31
  • 3.3.4 爬虫异常警告功能31
  • 3.3.5 监控系统的权限控制31
  • 3.3.6 针对爬虫的缺点进行的改造31-32
  • 3.4 其他需求32-33
  • 3.4.1 可定制性32
  • 3.4.2 用户友好性32
  • 3.4.3 可扩展性32-33
  • 3.4.4 可靠性33
  • 3.5 本章小结33-34
  • 第四章 爬虫监控系统的整体设计34-44
  • 4.1 逻辑架构设计34-35
  • 4.2 物理部署架构设计35-37
  • 4.3 系统的主要工作流程37-40
  • 4.3.1 单机Heritrix爬虫的工作流程37-38
  • 4.3.2 多爬虫监控系统的工作流程38-40
  • 4.4 功能模块划分40-42
  • 4.5 重要的数据表设计42-43
  • 4.6 本章小结43-44
  • 第五章 爬虫监控系统的具体实现44-62
  • 5.1 监控系统前端模块44-49
  • 5.1.1 功能概述44
  • 5.1.2 工作原理44-49
  • 5.2 状态监控模块49-53
  • 5.2.1 功能概述49
  • 5.2.2 工作原理49-53
  • 5.3 动态新增加任务模块53-56
  • 5.3.1 功能概述53
  • 5.3.2 工作原理53-56
  • 5.4 异常告警模块56-59
  • 5.4.1 功能概述56-57
  • 5.4.2 工作原理57-59
  • 5.5 其它模块59-61
  • 5.6 本章小结61-62
  • 第六章 测试和结果分析62-67
  • 6.1 测试环境62-63
  • 6.1.1 硬件环境62
  • 6.1.2 软件环境62-63
  • 6.2 系统功能测试63-66
  • 6.2.1 监控系统前端模块测试63-64
  • 6.2.2 状态控制模块测试64
  • 6.2.3 动态新增加任务模块测试64-65
  • 6.2.4 总体功能测试65-66
  • 6.3 测试结论66-67
  • 第七章 总结与展望67-69
  • 7.1 本论文工作总结67
  • 7.2 下一步工作计划67-69
  • 参考文献69-71
  • 致谢71-72
  • 攻读学位期间发表的学术论文72

【参考文献】

中国期刊全文数据库 前3条

1 赵永鑫;雷霖;;Heritrix在电子信息垂直搜索平台中的应用[J];成都大学学报(自然科学版);2013年02期

2 闵超;汪丰;朱家煜;;远程高血压管理平台的设计与构建[J];工业控制计算机;2014年06期

3 金婵鸣;徐东平;;搜索引擎系统中网页抓取模块研究[J];现代计算机(专业版);2010年03期



本文编号:635000

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/635000.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a6822***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com