面向舆情监测的主题爬虫设计与分析

发布时间：2017-08-07 14:00

本文关键词：面向舆情监测的主题爬虫设计与分析

【摘要】：随着社会的进步,互联网逐渐成为人们表达舆论的一个重要平台。与传统的媒体相比,网络具有传播迅速、用户匿名等特点,这对社会舆论起到了很好的监督作用,但也容易包含反动、迷信和黄色的内容,给社会安定甚至国家安全带来困扰。因此,如何在丰富的网络信息中及时获取当前网民关心的舆情信息,帮助政府及时了解当前社会重要事件及舆论方向就显得十分重要。运用搜索引擎等信息技术进行网络舆情的搜集与监控是切实有效的方法。本文提出了一种改进的基于在线增量学习的主题爬虫SVM分类器算法。通过对传统主题爬虫SVM分类器的改进,将历史训练集中对正反例影响较大的样本剔除并与增量集重新训练来获得完备的训练集,以提高获取率。最后以该算法为基础构建了一个主题爬虫框架,开发完成了一个面向网络舆情抓取的主题爬虫系统,实验结果表明,在网络舆情的采集过程中有效的提高了网络舆情信息的获取率。本文的具体研究工作主要有：一是信息采集和预处理技术。研究如何从松散的非结构化信息中采集资料。利用主题爬虫技术和网页净化技术、中文分词技术,实现网络信息的自动采集与结构化存储。二是SVM分类器分类算法研究。通过人为设定的某一主题,经过训练这一主题的训练集得到主题向量的向量模型表示,然后将实际抓取的页面跟训练得到的主题向量模型进行相关度计算,将高相关度的网页提取出来。实验数据表明,在查准率和查全率以及主题爬虫的获取率等方面,改进的增量学习的SVM分类方法的结果比传统SVM分类方法明显要好。三是开发完成了一个网络舆情抓取原型系统。在以上研究的基础上,本文开发完成了一个面向网络舆情的主题爬虫系统,用该系统对部分网络的舆情信息进行爬取,结果表明：本系统在主题舆情获取上取得了良好的效果。
【关键词】：主题爬虫 SVM分类器 增量学习 网络舆情
【学位授予单位】：天津科技大学
【学位级别】：硕士
【学位授予年份】：2014
【分类号】：TP393.092;TP391.1
【目录】：

摘要4-5
ABSTRACT5-8
1 绪论8-11
1.1 论文研究背景与意义8-9
1.2 论文研究内容9-11
1.2.1 研究内容9
1.2.2 本文工作9
1.2.3 论文组织结构9-11
2 相关研究11-18
2.1 主题爬虫研究11-14
2.1.1 传统网络爬虫11-12
2.1.2 主题爬虫12-14
2.2 网页净化和中文分词研究14-16
2.2.1 网页净化14-15
2.2.2 中文分词15-16
2.3 SVM在主题爬虫中的应用研究16
2.4 本章小结16-18
3 主题爬虫框架与网页预处理18-33
3.1 主题爬虫框架分析18-22
3.1.1 主题爬虫总体框架和搜索策略18-20
3.1.2 主题爬虫网页下载模块20
3.1.3 主题爬虫网页分析模块20-22
3.1.4 主题爬虫URL去重模块22
3.1.5 主题爬虫相关度分析模块22
3.2 网页预处理分析22-32
3.2.1 网页净化23-25
3.2.2 中文分词25-28
3.2.3 网页文本表示28-30
3.2.4 文本相似度计算30-32
3.3 本章小结32-33
4 主题爬虫SVM算法的研究与改进33-43
4.1 支持向量机分类算法33-38
4.1.1 基于二次规划的支持向量机线性分类算法33-34
4.1.2 基于二次规划的支持向量机非线性分类算法34-38
4.2 网页的SVM主题分类算法38
4.3 改进的SVM主题分类算法38-40
4.4 实验结果的比较与分析40-42
4.4.1 数据准备40
4.4.2 实验结果及比较40-42
4.5 本章小结42-43
5 基于增量学习的SVN主题爬虫系统设计与实现43-48
5.1 总体设计和框架结构43-44
5.2 开发环境与开发工具44-45
5.3 系统功能实现45
5.4 舆情抓取45-47
5.5 本章小结47-48
6 结论与展望48-49
6.1 工作总结48
6.2 工作展望48-49
7 参考文献49-55
8 攻读硕士学位期间论文发表情况55-56
9 致谢56

【参考文献】

中国期刊全文数据库前10条

1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期

2 马颖华,王永成,苏贵洋,韩客松,赵海;自动标引中基于概念层次树的主题词轮排选择的算法实现[J];高技术通讯;2003年06期

3 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期

4 丁月华,文贵华,郭炜强;基于核向量空间模型的专利分类[J];华南理工大学学报(自然科学版);2005年08期

5 殷贤亮;李猛;;基于分块的网页主题信息自动提取算法[J];华中科技大学学报(自然科学版);2007年10期

6 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期

7 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期

8 张文生,王珏,戴国忠;支持向量机中引入后验概率的理论和方法研究[J];计算机研究与发展;2002年04期

9 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期

10 吴胜远;并行分词方法的研究[J];计算机研究与发展;1997年07期

，

本文编号：634984

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/634984.html

上一篇：基于用户兴趣模型的个性化信息检索技术研究
下一篇：面向多爬虫的监控系统的设计与实现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|