当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于主题搜索引擎的文本聚类分类研究与实现

发布时间:2017-07-01 08:19

  本文关键词:基于主题搜索引擎的文本聚类分类研究与实现,由笔耕文化传播整理发布。


【摘要】:伴随互联网的发展和大数据时代地来临,触手可及的信息出现内容形式的多元化和数量上急剧增长化的特点。出现了长度较短、内容精炼的各种类型的短文本,如标题和微博等。同时在如今信息过载的时代,通用性的搜索引擎已经不能很好地满足用户对信息检索的针对性和准确性请求,越来越多面向主题的、垂直化的主题搜索引擎应运而生。无论是综合性的搜索引擎还是针对性的主题搜索引擎,文本挖掘都在其中扮演着重要的角色。如果在主题搜索中能很好地对这些随机性强的短文本形式的文本进行聚类分类将起到事半功倍的效果。 针对上述情况,本文的主要工作和成果如下: 第一,针对目前标题文本分类常用方法的一些问题,如需要完整全面的领域词表库支撑、或需要额外收集整理一些辅助的训练语料或者需要进行复杂的句子语义分析等,提出了一种基于LDA模型的无监督特征选择的分类算法。该算法克服了标题文本分类的上述问题,并且具有较好的分类效果和较强的可操作性。 第二,针对文本聚类算法中K均值算法对初值的选择比较敏感,随机选择的不同初始种子能致使最终收敛聚类结果差异较大的问题,提出了一种优化初始质心的K均值聚类算法。该算法建立在第一方面提出的特征选择方法后的良好特征矩阵上。在语料库上的实验表明,算法用比较少的迭代次数最终收敛到较为准确稳定的聚类结果上。 第三,设计实现了一个招标主题搜索引擎系统,把上述提出的文本分类聚类算法应用到系统的分类模块中。该系统的主要功能是从收集好的招标种子站点网站中获取发布的招标或中标网页信息,然后从这些网页中抽取所要信息,如招标时间,招标标题,招标联系人,招标正文等。最后把抽取到的信息按照一定标准如行业或地域进行分门别类。
【关键词】:标题分类 特征选择 K均值聚类 主题搜索
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • ABSTRACT5-7
  • 目录7-9
  • 第一章 绪论9-13
  • 1.1 研究背景和意义9-10
  • 1.2 国内外现状10-11
  • 1.3 本文的主要工作11-12
  • 1.4 本文的组织结构12-13
  • 第二章 文本分类聚类相关技术研究分析13-24
  • 2.1 文本表示模型13-16
  • 2.1.1 布尔模型13-14
  • 2.1.2 向量空间模型14
  • 2.1.3 概率模型14-15
  • 2.1.4 文中采用的模型15-16
  • 2.2 文本特征选择16-18
  • 2.2.1 文档频率(DF)16
  • 2.2.2 信息增益(IG)16-17
  • 2.2.3 互信息(MI)17
  • 2.2.5 单词权(TS)17-18
  • 2.2.6 几个特征选择对比18
  • 2.3 分类算法18-21
  • 2.3.1 决策树18-19
  • 2.3.2 朴素贝叶斯19
  • 2.3.3 支持向量机19-20
  • 2.3.4 文中采用的分类算法20-21
  • 2.4 聚类算法21-22
  • 2.4.1 K均值算法21
  • 2.4.2 层次聚类21-22
  • 2.4.3 基于密度的DBSCAN算法22
  • 2.4.4 文中采用的聚类算法22
  • 2.5 本章小结22-24
  • 第三章 主题搜索引擎的文本分类24-35
  • 3.1 基于招标主题搜索引擎的标题文本特点24-25
  • 3.2 基于LDA模型的分类算法25-30
  • 3.2.1 LDA模型26-27
  • 3.2.2 抽取算法27-28
  • 3.2.3 改进的特征选择28-30
  • 3.3 主题搜索引擎的标题文本分类实验30-34
  • 3.3.1 实验步骤30-31
  • 3.3.2 评价标准31-32
  • 3.3.3 实验结果与分析32-34
  • 3.4 本章小结34-35
  • 第四章 主题搜索引擎的文本聚类35-46
  • 4.1 k均值算法的局限性35-37
  • 4.2 改进的k均值聚类算法37-41
  • 4.2.1 优质初始质心的特点38-39
  • 4.2.2 在特征矩阵上选取初始质心39-41
  • 4.3 招标主题搜索引擎的文本聚类实验41-45
  • 4.3.1 评价标准42
  • 4.3.2 实验结果与分析42-45
  • 4.4 本章小结45-46
  • 第五章 招标领域主题搜索引擎系统的实现46-57
  • 5.1 系统整体介绍46-48
  • 5.2 重点模块介绍48-53
  • 5.2.1 行业分类模块48-49
  • 5.2.2 地域分类模块49-50
  • 5.2.3 正文属性信息抽取模块50-53
  • 5.3 系统运行结果展示53-56
  • 5.4 本章小结56-57
  • 第六章 总结和展望57-59
  • 6.1 全文总结57-58
  • 6.2 不足和展望58-59
  • 参考文献59-63
  • 致谢63-64
  • 攻读学位期间发表的学术论文目录64

【参考文献】

中国期刊全文数据库 前8条

1 齐全;董晶;;基于描述能力的视频标题分类[J];华南理工大学学报(自然科学版);2011年07期

2 林鸿飞;基于示例的文本标题分类机制[J];计算机研究与发展;2001年09期

3 刘涛,吴功宜,陈正;一种高效的用于文本聚类的无监督特征选择算法[J];计算机研究与发展;2005年03期

4 王永恒;贾焰;杨树强;;海量短语信息文本聚类技术研究[J];计算机工程;2007年14期

5 缪建明;张全;赵金仿;;基于文章标题信息的汉语自动文本分类[J];计算机工程;2008年20期

6 曹娟;张勇东;李锦涛;唐胜;;一种基于密度的自适应最优LDA模型选择方法[J];计算机学报;2008年10期

7 黄永光;刘挺;车万翔;胡晓光;;面向变异短文本的快速聚类算法[J];中文信息学报;2007年02期

8 ;Short text classification based on strong feature thesaurus[J];Journal of Zhejiang University-Science C(Computers & Electronics);2012年09期


  本文关键词:基于主题搜索引擎的文本聚类分类研究与实现,,由笔耕文化传播整理发布。



本文编号:505203

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/505203.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a8daa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com