基于决策树的URL分类器算法及主题爬虫平台设计

发布时间：2017-04-08 20:51

本文关键词：基于决策树的URL分类器算法及主题爬虫平台设计，，由笔耕文化传播整理发布。

【摘要】：偌大的互联网已经演变成了一个巨大的知识宝库,对这个知识宝库的探索、挖掘和分析是当下的一个热门应用领域。在对这个知识宝库进行探索和知识萃取之前,首要的一步是要收集原始数据。面对如此巨大的知识宝库,采用像谷歌、雅虎那样的通用搜索引擎寻找与用户定义主题相关的高质量网页很难得到较好的效果,并且与用户定义主题相关的高质量网面往往没有聚合在一起,而是比较分散,这为高质量原始数据的筛选工作增加了额外的负担。通用搜索引擎的爬虫程序通常采用广度优先的爬行策略,即通用搜索引擎爬虫程序按照一定的层次顺序依次爬取互联网上的网页,追求的目标是对互联网上网页的广泛采集。与通用搜索引擎爬虫程序不同的是,主题爬虫具备一个用于指导爬虫爬行方向的爬行策略,其中基于网页链接拓扑结构的爬行策略和基于网页内容的爬行策略是最经常使用的爬行策略。通过爬行策略的引导,主题爬虫可以带有目的性的找到与用户定义主题相关的网页,这在一定程度上避免了与用户定义主题无关网页的下载,节省宝贵的带宽资源。主题爬虫爬取网页的准确率是衡量主题爬虫性能的重要指标之一。首先,本文对主题爬虫的基本原理和系统架构进行深入研究,并对基于网页链接拓扑结构的爬行策略和基于网页内容的爬行策略的代表性算法做详细研究,比较这些算法各自的优缺点和使用场景。然后详细阐述网页文本处理技术,包括网页HTML文档的DOM树解析方法和正则表达式解析方法,对解析之后文本的分词处理和文本的向量空间模型表示方法以及基于向量空间表示模型的文本相似度计算方法。其次,在对主题爬虫程序的基本原理和架构进行深入研究之后,提出了基于决策树的URL分类器算法。该分类器算法利用网页中的4个HTML标签对URL进行分类。4个标签分别是:h1,h2,h3标签(heading)、网页的标题(title)、链接的锚文本(anchor)和链接上下文(context)。利用这4个HTML标签对应的文本内容与用户定义主题的相似度来构建决策树,对当前网页中包含的其他URL进行分类。将分类结果为与主题相关的URL放入优先爬行的URL队列,而将分类结果为与主题不相关的URL放入延迟爬取队列,当优先爬取队列为空时再爬取延迟爬取队列,这样保证较高准确率的同时又能在一定程度上避免主题爬虫“隧道穿越”问题。最后,利用开源网络爬虫程序框架设计了基于决策树的URL分类器算法的主题爬虫实现。实验结果表明,经过URL分类器分类处理的主题爬虫算法与传统的Fish-Search算法实现的主题爬虫相比较,本文实现的主题爬虫的爬取的网页准确率有一定提高,在5%-7%左右。
【关键词】：主题爬虫 决策树 URL分类器 爬行策略
【学位授予单位】：成都理工大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP391.1;TP393.092
【目录】：

摘要4-6
Abstract6-10
第1章引言10-16
1.1 研究背景10-11
1.2 研究目的和意义11
1.3 国内外研究现状11-13
1.4 本文研究内容13-14
1.5 论文组织结构14-16
第2章主题爬虫关键技术研究16-27
2.1 搜索引擎简介16-18
2.2 主题爬虫原理18-21
2.3 主题爬虫的爬行策略研究21-26
2.3.1 基于网页链接关系的爬行策略21-24
2.3.2 基于网页内容的爬行策略24-26
本章小结26-27
第3章网页文本内容处理技术研究27-38
3.1 网页文本内容预处理27-31
3.1.1 HTML文档结构与解析27-30
3.1.2 网页文本内容的分词处理30-31
3.2 网页文本内容的表示模型31-33
3.2.1 布尔表示模型32
3.2.2 向量空间表示模型32-33
3.3 网页文本内容特征抽取33-37
3.3.1 网页文本内容特征词选择算法33-36
3.3.2 网页文本内容特征词权重计算36-37
本章小结37-38
第4章基于决策树的URL分类器构建38-46
4.1 决策树分类算法研究38-41
4.1.1 决策树模型38
4.1.2 特征选择方法38-40
4.1.3 决策树生成算法40-41
4.2 URL分类器的构建41-45
4.2.1 URL分类特征的选取41-44
4.2.2 URL分类器模型训练44-45
本章小结45-46
第5章主题爬虫系统设计与结果分析46-57
5.1 主题爬虫系统平台搭建46-49
5.1.1 系统的软硬件环境46-47
5.1.2 Scrapy爬虫程序框架47-48
5.1.3 NLTK自然语言处理程序库48-49
5.2 主题爬虫的系统架构49-53
5.2.1 种子URL的选取50
5.2.2 主题特征向量的生成50-51
5.2.3 网页的采集与分析51-52
5.2.4 URL评价器设计52-53
5.3 主题爬虫系统实验结果与分析53-56
5.3.1 性能指标53-54
5.3.2 结果分析54-56
本章小结56-57
结论与展望57-59
致谢59-60
参考文献60-63
攻读学位期间获得的学术成果63

【相似文献】

中国期刊全文数据库前10条

1 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期

2 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期

3 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期

4 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期

5 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期

6 关慧芬;师军;;基于本体的主题爬虫技术研究[J];计算机仿真;2009年10期

7 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期

8 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期

9 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期

10 朱梦麟;李光耀;周毅敏;;基于树比较的Web页面主题信息抽取[J];微型机与应用;2011年19期

中国重要会议论文全文数据库前6条

1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年

2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集（研究报告篇）[C];2002年

3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集（上）[C];2008年

4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集（研究报告篇）[C];2004年

6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展（2009-2011）[C];2011年

中国博士学位论文全文数据库前4条

1 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年

2 赵一鸣;基于多维尺度分析的潜在主题可视化研究[D];华中师范大学;2013年

3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年

4 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年

中国硕士学位论文全文数据库前10条

1 yち

本文编号：293674

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/293674.html

上一篇：基于网络爬虫的电影集成搜索系统设计与实现
下一篇：财经问答系统结构化查询子系统的设计与实现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|