当前位置:主页 > 文艺论文 > 语言学论文 >

中文文本挖掘基本理论与应用

发布时间:2017-03-18 15:04

  本文关键词:中文文本挖掘基本理论与应用,由笔耕文化传播整理发布。


【摘要】:文本挖掘的应用前景十分广泛,中文文本较西方语言文本有其独特性,本文研究的对象是中文文本。此文首先对文本挖掘的背景和发展简要综述,并介绍中文文本挖掘的概念和流程,其中重点介绍了特征的提取、降维及分类算法。介绍了R中文本挖掘相关的包,,以及CHQ'S文本多分类系统,并应用此系统对文档进行分类。 本文重点是借助被广泛应用的开源工具构建自己的中文文本挖掘系统。根据中文文本挖掘的流程,详细的描述了自己对系统的探索,利用LTP系统进行分词,然后借助Weka的StringTOWordVector完成了从非结构化数据到结构化数据的转化,最后用LibSVM做中文文本多分类模型的训练和预测。
【关键词】:文本挖掘 文本分类 中文文本
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:H08
【目录】:
  • 摘要4-5
  • Abstract5-7
  • 1 绪论7-9
  • 1.1 文本挖掘的背景7
  • 1.2 文本挖掘的发展7-8
  • 1.3 本文内容框架8-9
  • 2 中文文本挖掘基本理论9-14
  • 2.1 文本挖掘概念9
  • 2.2 中文文本挖掘的流程9-14
  • 2.2.1 特征提取及降维10-11
  • 2.2.2 常用分类算法11-14
  • 3 中文文本挖掘工具14-20
  • 3.1 R 文本挖掘应用14-17
  • 3.1.1 rsmartcn 包14-15
  • 3.1.2 rmmseg4j 包15-16
  • 3.1.3 Rwordseg 包16-17
  • 3.2 CHQ'S 文本多分类系统17-20
  • 3.2.1 系统介绍17-18
  • 3.2.2 系统应用18-20
  • 4 文本挖掘探索20-29
  • 4.1 LTP-cloud 分词20-22
  • 4.1.1 系统介绍20-21
  • 4.1.2 系统应用21-22
  • 4.2 数据结构化22-26
  • 4.2.1 SQLite22-23
  • 4.2.2 StringToWordVector23-26
  • 4.3 分类系统26-27
  • 4.4 系统的应用及后续探索计划27-29
  • 4.4.1 系统的应用27
  • 4.4.2 后续探索计划27-29
  • 结论29-30
  • 参考文献30-32
  • 附录 132-34
  • 附录 234-39
  • 附录 339-41
  • 致谢41-42

【参考文献】

中国期刊全文数据库 前8条

1 薛为民;陆玉昌;;文本挖掘技术研究[J];北京联合大学学报(自然科学版);2005年04期

2 梅馨,邢桂芬;文本挖掘技术综述[J];江苏大学学报(自然科学版);2003年05期

3 袁军鹏;朱东华;李毅;李连宏;黄进;;文本挖掘技术研究进展[J];计算机应用研究;2006年02期

4 周戈;;一种基于反向文本频率互信息的文本挖掘算法研究[J];计算机应用研究;2012年02期

5 李翠霞;林楠;;浅析文本挖掘技术[J];科技信息;2007年10期

6 谌志群;张国煊;;文本挖掘研究进展[J];模式识别与人工智能;2005年01期

7 肖建国;;试论文本挖掘及其应用[J];图书馆学研究;2008年04期

8 王俊英;郭景峰;霍峥;;中文文本分类系统的设计与实现[J];微电子学与计算机;2006年S1期


  本文关键词:中文文本挖掘基本理论与应用,由笔耕文化传播整理发布。



本文编号:254602

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/254602.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户7359c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com