当前位置:主页 > 科技论文 > 搜索引擎论文 >

安卓技术信息的主题爬虫技术研究与实现

发布时间:2017-05-18 00:04

  本文关键词:安卓技术信息的主题爬虫技术研究与实现,由笔耕文化传播整理发布。


【摘要】:为提高企业内安卓研发人员的工作效率,企业开发了安卓技术信息的垂直搜索引擎。在垂直搜索引擎中,最为基础和底层的数据是由主题爬虫提供的。因此主题爬虫的能力决定了整个垂直搜索引擎在该领域上的专业程度。而主题爬虫能够找准方向进行爬行就能高效合理地到达垂直资源所在的位置,也就能高效率地获得符合主题的资源。为此,本文将对主题爬虫的核心部分——主题爬行策略展开论述,并针对策略中的两个子功能网页主题相关度判断和隧道穿越进行研究与实现。因此论文比较了现有的基于网页内容和网页链接结构多种算法的优劣,并对安卓技术信息的资源进行分析制定专有的网页主题相关度判断方案,并实现穿越隧道的能力。其中主要贡献如下:(1)实现了参考谷歌的网页排名算法并改进了鲨鱼搜索对主题背景不适用的部分,最后结合一个参考网页兄弟节点的综合方案进行爬行;(2)为了提高获取主题资源的准确率,课题制定了基于向量空间模型对分类后的网页内容进行主题相关度计算的方法;(3)为扩大爬行结果在网站中主题资源的覆盖程度,使用继承相关性和递减搜集隧道种子的特性来实现隧道穿越功能;对主题爬虫的关键模块实现后进行测试验证,结果表明,实现的主题爬虫能较有效率的爬行和准确的抓取到主题相关的网页,并能通过隧道穿越解决主题孤岛现象。但仍存在部分主题相关的网页被误判无法拾回的现象,在执行隧道穿越中依旧遍历了大量的网页数,占用网络带宽和计算资源,这是下一步要改进的工作。
【关键词】:主题爬虫 安卓技术 隧道穿越 主题词库 爬行策略
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-9
  • 中英文对照表9-10
  • 第一章 绪论10-14
  • 1.1 研究背景及意义10
  • 1.2 网络爬虫研究现状综述10-12
  • 1.2.1 常见爬虫研究方向10-11
  • 1.2.2 国内外著名的主题爬虫11-12
  • 1.3 研究内容12-13
  • 1.4 论文组织结构13-14
  • 第二章 相关技术14-27
  • 2.1 主题爬行策略技术14-18
  • 2.1.1 超文本归纳主题搜索14-15
  • 2.1.2 网页排名与山顶算法15-16
  • 2.1.3 最佳优先搜索16
  • 2.1.4 鱼群搜索与鲨鱼搜索16-18
  • 2.2 主题相关度判别技术18-23
  • 2.2.1 主题相关度计算方法19-21
  • 2.2.2 正文提取方法21-22
  • 2.2.3 权重赋值方法22-23
  • 2.3 隧道穿越技术23-24
  • 2.4 主题爬虫系统工作流程24-25
  • 2.5 网络中垂直领域信息资源现状25-27
  • 第三章 主题爬行策略27-39
  • 3.1 功能分析27-28
  • 3.1.1 主题爬行策略概述27
  • 3.1.2 设计与实现要求27-28
  • 3.2 设计方案28
  • 3.3 功能设计28-33
  • 3.3.1 选取爬行策略类型28-29
  • 3.3.2 优化鲨鱼搜索29-31
  • 3.3.3 网页排序算法融入策略31-32
  • 3.3.4 使用兄弟节点作参考32-33
  • 3.4 方案实现33-39
  • 第四章 网页主题相关度判断39-48
  • 4.1 功能分析39-40
  • 4.1.1 网页主题相关度判断概述39
  • 4.1.2 设计与实现要求39-40
  • 4.2 设计方案40
  • 4.3 功能设计40-46
  • 4.3.1 建立主题词库40-42
  • 4.3.2 对正文提取及代码段去噪42-43
  • 4.3.3 安卓技术信息资源分类处理43-45
  • 4.3.4 对单块文本主题相似度计算45-46
  • 4.4 方案实现46-48
  • 第五章 隧道穿越48-56
  • 5.1 功能分析48-49
  • 5.1.1 隧道穿越概述48
  • 5.1.2 设计与实现要求48-49
  • 5.2 设计方案49
  • 5.3 功能设计49-51
  • 5.3.1 关联特性和深度限制49
  • 5.3.2 判断主题孤岛现象发生49-50
  • 5.3.3 递减收集方法50-51
  • 5.4 方案实现51-56
  • 第六章 总结与展望56-58
  • 6.1 总结56
  • 6.2 下一步工作及展望56-58
  • 致谢58-59
  • 参考文献59-61

【相似文献】

中国期刊全文数据库 前10条

1 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期

2 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期

3 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期

4 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期

5 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期

6 关慧芬;师军;;基于本体的主题爬虫技术研究[J];计算机仿真;2009年10期

7 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期

8 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期

9 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期

10 朱梦麟;李光耀;周毅敏;;基于树比较的Web页面主题信息抽取[J];微型机与应用;2011年19期

中国重要会议论文全文数据库 前6条

1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年

2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

中国博士学位论文全文数据库 前4条

1 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年

2 赵一鸣;基于多维尺度分析的潜在主题可视化研究[D];华中师范大学;2013年

3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年

4 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年

中国硕士学位论文全文数据库 前10条

1 解琰;主题优化过滤方法研究与应用[D];大连海事大学;2015年

2 杨春艳;基于语义和引用加权的文献主题提取研究[D];浙江大学;2015年

3 卢洋;基于主题模型的混合推荐算法研究[D];电子科技大学;2014年

4 黄志;基于维基歧义页的搜索结果聚类方法研究[D];北京理工大学;2015年

5 王亮;基于主题模型的文本挖掘的研究[D];大连理工大学;2015年

6 任昱凤;基于Hadoop的分布式主题爬虫及其实现[D];陕西师范大学;2015年

7 韩琳;基于贝叶斯主题爬虫的研究与实现[D];北京工业大学;2015年

8 黎楠;面向专利的主题挖掘技术研究及应用[D];北京工业大学;2015年

9 刘学江;超大规模社交网络中基于结构与主题的社团挖掘[D];电子科技大学;2015年

10 黄文强;安卓技术信息的主题爬虫技术研究与实现[D];东南大学;2015年


  本文关键词:安卓技术信息的主题爬虫技术研究与实现,由笔耕文化传播整理发布。



本文编号:374736

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/374736.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f9b89***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com