当前位置:主页 > 科技论文 > 搜索引擎论文 >

垂直搜索中一种高效稳定的数据抓取方法的研究与实现

发布时间:2017-05-18 01:04

  本文关键词:垂直搜索中一种高效稳定的数据抓取方法的研究与实现,由笔耕文化传播整理发布。


【摘要】:垂直搜索引擎的发展解决了互联网用户对大规模高时间敏感度数据的搜索需求,数据抓取的过程是其关键的组成部分。传统数据抓取程序通常只关注于网页链接的获取,以及网页或网页块的整体抓取,对网页内容基本不作分析与处理。但是,如果为垂直搜索提供数据源,则需要具备更高智能和性能的数据抓取系统,它不仅能分析提取网页链接,而且能分析网页结构及内容,准确提取结构化信息[Chakrabartia et al.,1999],同时保证一定的覆盖率和更新率。针对某一个垂直领域的数据抓取能够更深层次地挖掘信息,但是也会遇到站点改版、流量分配、调度更新不及时、重复挖掘、时效性等困难[Ricardo et al.,2007]。根据具体业务需求,团队设计并开发了一个数据抓取系统,用于扩展完成不同业务部门对目标网站的数据抓取任务,实现对目标网页的分布式并行抓取和处理[Bing Zhou et al.,2010]。系统实现抓取的过程分为任务调度,任务分发,数据抓取,结果存储。数据抓取系统在实际应用中被证实为高效,稳定,可扩展的。本文围绕数据抓取系统的数据抓取和测试监控,完成了下列主要研究及应用工作:1.在数据抓取方面,实现了多线程提高处理效率,采用不同的抓取模式完成对网页数据的解析和处理。同时,支持客户端的自动升级,保证频繁的需求变更不会带来巨大的工作量;2.对该数据抓取系统的功能和性能测试,在保证数据抓取的效率,正确性和稳定性方面发挥了重要作用。主要包括性能参数采集,API测试,数据校验等;3.实现对系统的监控管理,将抓取过程可视化,同时提供报警机制,帮助及时发现并解决问题,保证抓取系统的稳定性。
【关键词】:数据抓取 C/S 分布式 Redis 可视化
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
  • 摘要5-6
  • Abstract6-12
  • 第一章 引言12-16
  • 1.1 项目背景12-13
  • 1.2 国内外研究现状和进展13-14
  • 1.3 本文主要研究的工作14-15
  • 1.4 本文的组织结构15-16
  • 第二章 技术综述16-22
  • 2.1 垂直搜索引擎技术16-17
  • 2.2 Redis17-18
  • 2.3 Selenium18-19
  • 2.4 TestNG19-20
  • 2.5 系统自动化配置和管理20-21
  • 2.6 Web.py21
  • 2.7 本章小结21-22
  • 第三章 数据抓取系统的需求分析与总体设计22-29
  • 3.1 需求分析22-25
  • 3.1.1 功能需求22-24
  • 3.1.2 非功能需求24-25
  • 3.2 总体设计25-28
  • 3.2.1 项目约定25-26
  • 3.2.2 总体架构26-27
  • 3.2.3 运行流程27-28
  • 3.3 本章小结28-29
  • 第四章 数据抓取系统的详细设计29-44
  • 4.1 数据结构设计29-32
  • 4.2 接口设计32-35
  • 4.3 模块设计35-43
  • 4.3.1 任务调度模块36-37
  • 4.3.2 任务分发模块37-38
  • 4.3.3 数据抓取模块38-41
  • 4.3.4 数据存储模块41-43
  • 4.4 本章小结43-44
  • 第五章 数据抓取系统的抓取实现44-51
  • 5.1 抓取控制44-45
  • 5.2 抓取模式45-49
  • 5.2.1 Local抓取45-47
  • 5.2.2 Remote抓取47-49
  • 5.3 抓取升级49-50
  • 5.4 本章小结50-51
  • 第六章 数据抓取系统的测试与监控51-63
  • 6.1 测试实现51-58
  • 6.1.1 API测试51-53
  • 6.1.2 Metrics采集53-55
  • 6.1.3 性能参数采集55
  • 6.1.4 截图数据校验55-56
  • 6.1.5 ADSL重播测试56-57
  • 6.1.6 Client批量操作部署57-58
  • 6.2 监控管理58-61
  • 6.2.1 任务调度59
  • 6.2.2 客户端监控59-60
  • 6.2.3 检测报警60-61
  • 6.3 本章小结61-63
  • 第七章 总结与展望63-65
  • 7.1 总结63-64
  • 7.2 进一步工作展望64-65
  • 参考文献65-67
  • 致谢67-69

【相似文献】

中国期刊全文数据库 前10条

1 宿建光;;指点通:移动垂直搜索的创新者[J];通信世界;2007年03期

2 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期

3 陈诚;;基于云计算的智慧城市垂直搜索技术研究[J];软件产业与工程;2012年04期

4 白骏骄;;垂直搜索更贴近需求或引领搜索市场发展方向[J];世界电信;2013年05期

5 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期

6 刘策;;垂直搜索——电子商务领域的新秀[J];软件导刊;2006年11期

7 ;垂直搜索互联网搜索业的新军[J];数字通信世界;2006年12期

8 李震;;移动垂直搜索:随时得到有用信息[J];中国传媒科技;2006年12期

9 吴伟忠;崔建英;;基于时效性的垂直搜索及其应用[J];暨南大学学报(自然科学版);2007年03期

10 庄芯;;风投押宝垂直搜索 各方巨头介入又添疑点[J];IT时代周刊;2008年01期

中国重要会议论文全文数据库 前2条

1 周明;刘晓华;蒋龙;Matt Scott;;利用网络挖掘技术建立英语学习平台[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

2 刘源;詹舒波;;基于Solr的行业垂直搜索平台的研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年

中国重要报纸全文数据库 前10条

1 高赛;垂直搜索是下一个“金矿”[N];光明日报;2008年

2 本报实习记者 张健;360联合一淘上线购物搜索垂直搜索或迎新机遇[N];通信信息报;2013年

3 特约记者 曹晟源 本报记者 陈时俊;阿里、百度入口争夺战:一淘杀入旅游垂直搜索[N];21世纪经济报道;2013年

4 刘筱攸;金融垂直搜索平台面临三大制约因素[N];证券时报;2013年

5 姜蓉;垂直搜索是搜索市场的新“钱景”[N];中国经营报;2005年

6 刘冰;垂直搜索越来越有魅力[N];经济参考报;2007年

7 薛娟;垂直搜索盯紧风投的口袋?[N];中国经济时报;2006年

8 ;移动垂直搜索开拓中国搜索新天地[N];人民邮电;2006年

9 沉风;垂直搜索:互联网服务生活新方向[N];人民邮电;2007年

10 本报记者 廖庆升;垂直搜索赢利模式探讨[N];通信信息报;2007年

中国博士学位论文全文数据库 前2条

1 管虎;普适环境下轻量级垂直搜索中数据挖掘理论研究[D];上海交通大学;2013年

2 陈德品;基于迁移学习的跨领域排序学习算法研究[D];中国科学技术大学;2010年

中国硕士学位论文全文数据库 前10条

1 梅良;基于特定领域对象级垂直搜索中的对象抽取问题的研究[D];电子科技大学;2015年

2 肖剑;垂直搜索中一种高效稳定的数据抓取方法的研究与实现[D];南京大学;2014年

3 吕昊;面向垂直搜索的聚焦爬虫研究及应用[D];浙江大学;2008年

4 易平;生活服务行业垂直搜索的设计与实现[D];暨南大学;2010年

5 宋国;面向分布式数据源的语义垂直搜索系统研究与实现[D];哈尔滨工业大学;2013年

6 刘金亮;汽车行业垂直搜索系统原型的设计与关键模块的实现[D];北京邮电大学;2008年

7 史磊峰;移动垂直搜索系统的研究[D];北京交通大学;2010年

8 雷洪;一个垂直搜索系统的设计与实现[D];中山大学;2012年

9 庄力;中医临床诊疗垂直搜索系统研究[D];北京交通大学;2009年

10 吴昆;基于视觉特征的垂直搜索研究[D];华中科技大学;2009年


  本文关键词:垂直搜索中一种高效稳定的数据抓取方法的研究与实现,由笔耕文化传播整理发布。



本文编号:374818

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/374818.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户75143***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com