当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于元搜索引擎的主题导向网络舆情采集系统研究与设计

发布时间:2017-08-05 17:16

  本文关键词:基于元搜索引擎的主题导向网络舆情采集系统研究与设计


  更多相关文章: 舆情监控 舆情采集 爬行策略 网页解析 SSH框架


【摘要】:随着互联网的高速发展,“以用户为中心,用户参与”的开放式构架理念已深入人心,互联网用户逐渐由被动地接收网络信息向主动创造网络信息转变。门户网站、论坛、微博等网络媒介已经成为人们发布、传播和获取评论信息、表达情感、发表观点的重要平台。同时,互联网也逐渐成为舆情信息传播的重要渠道。网络媒介中的大量评论和观点等主观性文本,蕴藏着重要的经济价值和社会价值,同时也引导着社会舆论的方向。它是民众对网络事件的刺激所产生的情感、认知、态度以及行为倾向性的集合,并通过互联网传播。网络舆情的采集、监控对社会安全部门及时获取用户情感倾向、发掘、跟踪网络热点事件等方面具有重大的研究意义和现实意义。因此,众多研究机构、社会企业甚至政府单位都针对网络舆情进行了大量研究分析,欲对其进行监控、利用。本文主要以南华大学高校网络舆情监控平台为基础,对网络舆情信息采集策略进行研究,并以此设计采集系统。采取以理论研究指导实践的方法进行系统设计,首先研究了网络舆情的结构和特征,对主要的舆情采集空间和来源进行分析,结合当前国内外舆情研究的发展现状,针对当前舆情采集广泛存在的采集效率不高、目标局限性强的问题,提出一种可用户个性化主题设置的基于元搜索引擎的舆情采集策略。通过主题关键字匹配、正则表达式过滤和基于域名限定爬取的策略,保证系统爬取数据的主题相关性,过滤冗余数据,提高系统运行效率。将舆情信息的来源设定为公众集中反映意见、态度和观点、倾向的各大新闻门户网站、博客论坛、网络社区、以及微博等新兴媒介。本文研究旨在设计出一套适应高校的网络舆情监控的舆情信息采集系统,做到实时高效地挖掘出互联网中相对于高校敏感的舆论信息,对获取的数据进行清理和结构化处理,为舆情数据的倾向性分析、热点事件的发现与事件跟踪做准备。实现的主要成果有:(1)对网络舆情结构特征、采集来源进行具体研究,结合国内外舆情采集系统研究的现有技术和模式,根据南华大学网络舆情监控平台的实际需求,进行系统分析、设计;(2)分别实现对不同舆情采集来源的网页进行解析,对网页不同标签重要程度进行分析,提取相关舆情要素;(3)实现用户对舆情主题和舆情采集来源的可配置性,用户可基于主题关键字和域名对舆情信息来源进行爬取URL源设置,实现个性化舆情采集;(4)对网络舆情的爬行策略进行分析,基于元搜索引擎进行数据爬取,采用多线程并行爬取实现实时高效爬取;(5)基于JAVA开源SSH框架实现系统整体架构,将应用分为表现层、控制层、业务逻辑层和数据访问层,降低各层之间的耦合度。实现了系统的开发和测试,为整个监控系统的后续工作做好准备。
【关键词】:舆情监控 舆情采集 爬行策略 网页解析 SSH框架
【学位授予单位】:南华大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
  • 摘要9-11
  • Abstract11-13
  • 第一章 绪论13-19
  • 1.1 项目背景与意义13-14
  • 1.2 国内外研究现状14-16
  • 1.3 研究目的与主要内容16-17
  • 1.4 论文的组织结构17-19
  • 第二章 相关理论和关键技术19-28
  • 2.1 网络舆情的要素和特征19
  • 2.2 网络舆情的采集来源19-20
  • 2.3 主题网络爬虫的基本概念20-22
  • 2.4 网络爬虫的爬行策略和技术22-25
  • 2.4.1 网页搜索策略22-23
  • 2.4.2 重新访问策略23
  • 2.4.3 平衡礼貌策略23-24
  • 2.4.4 主题设置的采集策略24
  • 2.4.5 网络爬虫技术24-25
  • 2.5 元搜索引擎技术25-26
  • 2.6 个性化搜索技术26-27
  • 2.6.1 个性化技术的研究现状27
  • 2.6.2 个性化搜索的主要方法27
  • 2.7 本章小结27-28
  • 第三章 系统的需求分析28-34
  • 3.1 元搜索引擎需求分析28
  • 3.2 主题导向搜索引擎需求分析28-29
  • 3.3 系统需求分析29-30
  • 3.3.1 系统需求目标29
  • 3.3.2 系统的最终用户29-30
  • 3.4 系统用例模型30-33
  • 3.5 本章小结33-34
  • 第四章 系统的研究和设计34-54
  • 4.1 系统架构设计34-35
  • 4.2 系统功能实现方案35-36
  • 4.3 系统后台结构设计36-49
  • 4.3.1 后台整体数据流37-38
  • 4.3.2 下载线程与下载控制线程38-41
  • 4.3.3 URL解析线程与控制线程41-43
  • 4.3.4 文档结构解析线程与控制线程43-45
  • 4.3.5 分词索引线程和控制线程45-47
  • 4.3.6 查询过滤线程和控制线程47-49
  • 4.4 系统前台结构设计49
  • 4.5 元搜索引擎设计49-52
  • 4.5.1 元搜索引擎模型49-50
  • 4.5.2 元搜索引擎的提取算法50-51
  • 4.5.3 元搜索引擎主题导向爬行器设计51-52
  • 4.6 系统数据库设计52-53
  • 4.7 本章小结53-54
  • 第五章 实验与结果分析54-63
  • 5.1 实验设置54-55
  • 5.1.1 实验环境设置54
  • 5.1.2 实验数据设置54-55
  • 5.1.3 实验评价标准55
  • 5.2 主题爬虫实验55-60
  • 5.2.1 实验目的55
  • 5.2.2 实验内容55-58
  • 5.2.3 实验结果分析58-60
  • 5.3 元搜索实验60-62
  • 5.3.1 实验目的60
  • 5.3.2 实验内容60-62
  • 5.3.3 实验结果分析62
  • 5.4 本章小结62-63
  • 第六章 总结与展望63-65
  • 6.1 系统主要功能实现63
  • 6.2 工作总结63-64
  • 6.3 工作展望64-65
  • 参考文献65-68
  • 致谢68

【参考文献】

中国硕士学位论文全文数据库 前1条

1 黄仲清;互联网主题信息定向采集研究[D];华东师范大学;2010年



本文编号:626012

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/626012.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3a543***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com