当前位置:主页 > 科技论文 > 搜索引擎论文 >

新闻类信息的组织和话题监控

发布时间:2017-04-01 10:00

  本文关键词:新闻类信息的组织和话题监控,由笔耕文化传播整理发布。


【摘要】:论文针对网络新闻的平台,提出利用自然语言处理和机器学习等算法进行内容组织和话题监控,从而提供用户便捷地定位“兴趣信息”的浏览体验。通过这套文本处理系统,用户可以采集实时新闻,定制喜欢的新闻,以及按类别细化查找想看的文章。此外,用户还可以发现实时热点话题,跟踪感兴趣话题的动态。 论文工作首先用传统的文本处理手段进行新闻组织、用户频道定制和话题发现,主要有:基于文本分类器自动划分用户感兴趣的新闻;基于Single-pass、NMF和LDA等文本处理算法对历史新闻进行话题发现。然后提出了一系列创新的新闻平台解决方案,主要有:基于HFTC算法进行新闻组织,自动构建出具有层次性的新闻聚类结构,帮助用户按带有语义描述信息的类别进行新闻查找;基于WBN-FTC进行话题发现,克服了FTC算法支持度阈值难以选择的缺点,不仅可以像LDA那样有效发现话题,而且摆脱了VSM模型的限制,在海量数据上的时间性能更好,此外,还可以通过调整参数来设置话题发现的粒度;在工程实践方面,本文提出基于搜索引擎技术实现挖掘算法,不仅提高系统运行效率,而且降低编程成本。 同时,论文提出两套话题跟踪方案,分别基于查询扩展和组合分类器,并提出利用时序特征进行话题预测和模式识别。这些都为话题监控领域提供了更广阔的应用前景。
【关键词】:新闻组织 话题发现 HFTC算法 WBN-FTC算法 话题动态跟踪
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1;TP181
【目录】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 概述9-11
  • 1.1 论文研究的背景和意义9-10
  • 1.2 论文研究内容10
  • 1.3 论文组织结构10-11
  • 第二章 相关背景知识11-15
  • 2.1 内容组织的现状11-13
  • 2.1.1 信息采集技术11-12
  • 2.1.2 聚类技术12
  • 2.1.3 分类技术12-13
  • 2.2 话题监控研究现状13-14
  • 2.2.1 话题检测13-14
  • 2.2.2 话题跟踪14
  • 2.2.3 时序传播14
  • 2.3 新闻平台挖掘的研究现状14-15
  • 第三章 应用环境分析15-17
  • 3.1 新闻内容概述15
  • 3.2 话题分布特点15-16
  • 3.3 话题传播特点16-17
  • 第四章 话题信息采集17-20
  • 4.1 新闻来源17
  • 4.2 爬虫模块17-18
  • 4.3 预处理模块18-19
  • 4.4 存储模块19-20
  • 第五章 新闻内容组织20-33
  • 5.1 基于HFTC算法的文本聚类组织20-24
  • 5.1.1 传统文本聚类算法20
  • 5.1.2 基于频繁词条集的文本聚类算法20-23
  • 5.1.3 引入索引23-24
  • 5.2 文章分类组织24-26
  • 5.3 实验测评26-33
  • 5.3.1 HFTC聚类组织26-29
  • 5.3.2 朴素贝叶斯分类器进行分类组织29-33
  • 第六章 话题发现33-53
  • 6.1 话题发现基本技术33-36
  • 6.1.1 Single Pass算法33-35
  • 6.1.2 NMF/LDA算法35-36
  • 6.2 基于WBN-FTC的话题发现36-41
  • 6.2.1 新算法优势36-37
  • 6.2.2 小世界模型37-38
  • 6.2.3 词的置信网络(Word Belief Network)38-40
  • 6.2.4 图切割策略40-41
  • 6.3 针对发现话题进行推荐41-43
  • 6.3.1 协同过滤推荐引擎41-42
  • 6.3.2 矩阵分解对协同过滤的优化42-43
  • 6.4 话题摘要的生成43
  • 6.5 实验测评43-53
  • 6.5.1 传统方法43-46
  • 6.5.2 WBN-FTC46-53
  • 第七章 话题跟踪及其动态特征53-62
  • 7.1 话题跟踪53-56
  • 7.1.1 传统思路53-54
  • 7.1.2 利用分类器组合方法进行话题跟踪54-56
  • 7.2 话题的时间特征56-59
  • 7.2.1 在线新闻话题发现的三个阶段56-57
  • 7.2.2 将时间特征引入话题监控范畴57
  • 7.2.3 基于时间维度上的特征进行话题走势预测57-58
  • 7.2.4 通过分析时间特征进行模式识别58-59
  • 7.3 实验测评59-62
  • 第八章 结论62-63
  • 参考文献63-65
  • 致谢65-66
  • 作者攻读学位期间发表的学术论文目录66

【参考文献】

中国期刊全文数据库 前8条

1 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期

2 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期

3 高茂庭;王正欧;;几种文本特征降维方法的比较分析[J];计算机工程与应用;2006年30期

4 陈景年;黄厚宽;田凤占;瞿有利;;一种用于贝叶斯分类器的文本特征选择方法[J];计算机工程与应用;2008年13期

5 黄钢石,陆建江,张亚非;基于NMF的文本聚类方法[J];计算机工程;2004年11期

6 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

7 单斌;李芳;;基于LDA话题演化研究方法综述[J];中文信息学报;2010年06期

8 王永恒;贾焰;杨树强;;基于频繁词集聚类的海量短文分类方法[J];计算机工程与设计;2007年08期


  本文关键词:新闻类信息的组织和话题监控,由笔耕文化传播整理发布。



本文编号:280395

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/280395.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户24aad***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com