当前位置:主页 > 管理论文 > 移动网络论文 >

面向移动应用商店的分布式爬虫系统设计与实现

发布时间:2019-12-02 17:17
【摘要】:近年来,随着移动互联网的不断发展和市场需求的不断拉动,移动应用软件的数量以爆炸性的速度增长,移动应用商店也成为推广应用软件的最主要平台之一。由于缺乏有效的监管,移动应用商店中的应用软件良莠不齐,存在严重安全隐患,针对移动应用软件进行安全检测的需求与日俱增。基于此,本文设计并实现了面向移动应用商店的分布式爬虫系统,用以采集移动应用商店中的应用软件信息与样本,为移动应用软件的安全检测提供数据支持。本文首先介绍了系统的研究背景,概述了前人在网络爬虫方面的研究成果,并对本系统所用到的关键技术进行了深入研究,包括移动应用商店网站结构的分析、网络爬虫设计原理和爬行策略的研究、Scrapy框架的介绍以及分布式网络爬虫架构的研究。基于相关关键技术的研究,本文提出了一种基于URL分类的抓取策略,并且对爬虫系统的整体架构和各功能模块作出了详细设计,包括控制管理服务器、爬虫服务器等关键模块设计的详细阐述。最后,本文论述了面向移动应用商店的分布式爬虫系统的具体实现,并设计了几组与传统爬虫系统的对照实验,通过实验数据证明了本文所提出的抓取策略的可行性与有效性,以及本文所使用的分布式爬虫系统的高效性。本文主要完成了以下工作:1.为了提高系统的采集效率,同时使系统具有良好的可扩展性,本文设计并实现了混合模式的分布式爬虫系统架构,克服了主从模式下由于爬行数量增加而导致系统性能下降的困难,能够方便的进行爬行节点的添加与删除,并制定了适用于移动应用商店网络爬虫系统的分布式任务下发策略。2.围绕如何提高爬虫系统的采集效率展开深入研究,结合移动应用商店网站结构的特点,在传统的广度优先抓取策略基础上提出了一种基于URL分类的抓取策略,详细介绍了该策略的算法,并做了设计与实现。3.为了提高软件信息采集的可靠性,对动态网页数据的采集做了详细研究,使用了 selenium+phantomjs组合模拟浏览器、网络抓包分析URL规律等方法来实现动态网页数据的抓取。4.为了提高数据样本的覆盖率,本系统实现了对目前市场上主流的50多家第三方移动应用商店的应用软件信息采集。
【图文】:

百度,商店


图2-1百度应用商店应用导航页逡逑下面以百度应用商店为例,具体分析其网页结构特征。进入百度应用商店首逡逑页后,就能看到如图2-1所示的应用分类导航信息,此版块将应用商店中的所有逡逑应用按功能作用进行了分类,如社交通讯类、系统工具类等。以这些分类导航链逡逑接为入口,点击进入以后,会看到应用按一定的方式排列呈现在页面中,并以翻逡逑页的形式列出了该类别中的所有应用,如图2-2所示。从应用列表页中能够提取逡逑到应用详细页面的URL,进而访问应用详细页,应用详细页中包含了应用的具逡逑7逡逑

百度,商店,工程硕士学位,链接地址


百度应用商店应用列表页百度李抓姗浮猫负,,按释》苦眺工皿,帕汽万瀚钥胜
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP393.092

【参考文献】

相关期刊论文 前10条

1 南磊;;基于Hadoop的图书推荐系统研究与设计[J];计算机与数字工程;2016年06期

2 邹科文;李达;邓婷敏;李嘉振;陈义明;;网络爬虫针对“反爬”网站的爬取策略研究[J];电脑知识与技术;2016年07期

3 马志强;张泽广;李昊u&;刘利民;;基于分布式架构的主题信息采集系统[J];计算机工程与设计;2015年04期

4 高荣;;基于Scrapy和casperjs的电子商务网站信息采集系统研究[J];数字技术与应用;2015年03期

5 杨永光;;代码签名在手机应用商店的应用[J];信息安全与通信保密;2014年10期

6 陈荟慧;舒云星;林丽;;Web语料抓取中基于相似度的URL过滤规则生成算法[J];模式识别与人工智能;2014年07期

7 史宝明;贺元香;吴崇正;;主题搜索引擎中爬虫搜索策略的研究[J];计算机工程与应用;2014年02期

8 方明科;王煜霞;;一种动态Web信息提取方法的设计与实现[J];管理工程师;2011年03期

9 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

10 陈俊彬;;Web信息抽取策略及其实现方法研究[J];科技情报开发与经济;2008年23期

相关博士学位论文 前1条

1 何川;分布式信息检索中的若干重要问题研究[D];北京邮电大学;2012年

相关硕士学位论文 前7条

1 孔维健;基于图聚类的招投标数据挖掘研究与应用[D];中山大学;2015年

2 李婷;分布式爬虫任务调度与AJAX页面抓取研究[D];电子科技大学;2015年

3 姚鑫;分布式手机软件应用搜索爬虫系统设计与实现[D];北京邮电大学;2015年

4 姚富贵;基于分布式的商品信息网络爬虫系统的设计与实现[D];华中科技大学;2014年

5 赵鹏程;分布式书籍网络爬虫系统的设计与实现[D];西南交通大学;2014年

6 苏小鲁;基于DOM的HTML网页正文信息抽取模块的设计与实现[D];北京邮电大学;2011年

7 王星;新闻网页抽取技术的研究与实现[D];河北工业大学;2011年



本文编号:2568839

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2568839.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户a5172***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com