当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于改进Single-Pass算法的热点话题发现系统的设计与实现

发布时间:2017-08-18 13:37

  本文关键词:基于改进Single-Pass算法的热点话题发现系统的设计与实现


  更多相关文章: 特征选择 相似度计算 文本聚类 Single-Pass算法 热点发现系统


【摘要】:互联网从出现到蓬勃发展至今在人们的经济社会生活中发挥着越来越重要的作用与影响,这是一个前所未有的时代,我们可以在这里享受到海量的信息。然而,在当前情况下,一方面我们能在这种大数据的情况下获取到更多的信息,而另一方面正是因为这种大数据的背景使得网络上的信息多而繁杂,不仅使得信息难以管理,更加大了我们管理和发现有价值的信息的难度。因此,拥有一种能让用户迅速获取自己所需信息的工具已成为了人们的急切需求。近几年来搜索引擎的快速发展,减轻了信息过载的压力,在此项技术中我们一般通过输入一些关键字来获取到对自己有用的信息,但是正因为他采用的是关键字匹配的技术,并且没有对结果进行过滤,所以返回的信息必将有很高的信息冗余度,一般只要包含有部分关键字的网页就作为结果被进行了返回,这使得结果中会包含很多实际不相关的网页,最后我们还不得不入工去筛选自己所需的信息造成人力时间的浪费。而对于热点问题,搜索引擎就变的更无能为力,现在的热点话题或事件一般通过网上投票或者一些业界人士的人工筛选产生,因此具有一定的主观性。针对以上的问题,通过分析现有的技术和成果,本文设计和实现了以下内容:(1)本文通过对热点话题发现的需求分析,结合相关知识构建了热点话题发现系统的整体系统框架,对系统在结构设计及处理流程方面遇到的问题进行了有效的解决。(2)在热点话题发现系统的构建实现过程中本文结合了国内外的相关技术和研究,分别对信息采集、信息预处理、话题发现、热点话题热度计算以及用户管理等模块进行了设计与实现,其中为了更好地提高系统性能,本文对其所运用的文本挖掘算法Single-Pass聚类算法在聚类策略、文本向量表示以及相似度计算等方面进行了改进,最后利用热度计算公式将发现的话题按照热度进行排序并利用web技术将相关信息进行了展示,最后表明本文经过这一系列的方法设计的系统可以抽取并发现一些热点话题。
【关键词】:特征选择 相似度计算 文本聚类 Single-Pass算法 热点发现系统
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-10
  • 第一章 绪论10-14
  • 1.1 引言10-11
  • 1.2 国内外研究现状11-13
  • 1.3 本文的主要工作13
  • 1.4 本文结构安排13-14
  • 第二章 相关理论和技术14-26
  • 2.1 TDT相关知识14-17
  • 2.1.1 TDT中的基本概念14-15
  • 2.1.2 TDT的主要任务15-16
  • 2.1.3 TDT的评测方法16-17
  • 2.2 热点话题发现模型17-22
  • 2.3 文本聚类22-25
  • 2.4 本章小结25-26
  • 第三章 热点话题发现26-44
  • 3.1 热点发现的整体框架26-28
  • 3.2 信息采集28-33
  • 3.2.1 网络爬虫28-31
  • 3.2.2 内容抽取31-33
  • 3.3 信息预处理33-37
  • 3.3.1 中文分词技术33
  • 3.3.2 分词、词性标注33-35
  • 3.3.3 特征选择35-36
  • 3.3.4 文本的向量表示36-37
  • 3.4 信息挖掘37-43
  • 3.4.1 Single-Pass聚类算法38-39
  • 3.4.2 改进的Single-Pass算法39-41
  • 3.4.3 热度计算41-43
  • 3.5 抽取案例43
  • 3.6 本章小结43-44
  • 第四章 热点话题发现系统44-50
  • 4.1 系统概述44-45
  • 4.2 系统的开发平台与开发环境45-46
  • 4.3 系统数据库表设计46
  • 4.4 系统演示46-49
  • 4.5 本章小结49-50
  • 第五章 总结与展望50-52
  • 5.1 总结50
  • 5.2 展望50-52
  • 参考文献52-56
  • 致谢56-57

【参考文献】

中国期刊全文数据库 前3条

1 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期

2 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期

3 马国栋;李慧;;基于改进Single-Pass算法的BBS热点话题发现[J];首都师范大学学报(自然科学版);2014年06期

中国硕士学位论文全文数据库 前1条

1 罗晖霞;网络舆情监测系统研究与开发[D];中北大学;2010年



本文编号:694872

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/694872.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5d2e7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com