当前位置:主页 > 管理论文 > 组织管理论文 >

基于本体的文本特征选取和加权方法研究

发布时间:2017-04-25 04:00

  本文关键词:基于本体的文本特征选取和加权方法研究,由笔耕文化传播整理发布。


【摘要】: 传统的文本特征选取和加权方法主要是基于统计理论和机器学习方法的,在解决数据稀疏方面存在缺陷,在此基础上进行的文本分类精度往往都不能获得令人满意的效果,而且大量的研究结果表明,采用传统的文本特征选取方法获得的特征向量中,大量特征项之间都存在语义上的关联。本体是对客观存在的共享概念及其关系的形式化与明确的描述,具有良好的概念层次结构和对逻辑推理的支持。在文本特征选取过程中引入本体可以很好的将特征选取从词的层面上升到概念的层次,挖掘术语之间的更深层次上的关系。基于此,本文提出一种基于本体的文本特征选取和加权方法。 首先通过去除停用词和词干提取等文本预处理方法对文本进行预处理,然后采用向量空间模型表示文本特征,获得初始特征向量。然后引入本体,将特征项映射到概念。基于本体的文本特征选取方法包括三个方面:构建文本概念树,特征项到概念的映射和计算初始权重。由于Protégé具有良好的可视化功能,在本体构建的过程中可以自动生成有关概念之间关系的结构图,也即文本概念树。文本概念树清晰的表示出了术语之间的层次关系,借此可以将特征项映射到概念。根据不同的术语关系,映射过程会出现一对一、多对一和多对多的情况,针对这三种情况,采用多个特征项共同映射同一概念的最大匹配方法。TF·IDF方法是特征加权方法中应用最为广泛的一种方法,本文采用该方法计算特征项的初始权重,但是TF·IDF方法在计算术语权重时没有考虑特征项之间的语义关系。为了使其更好的对特征项赋权,本文根据映射情况对该方法进行了加权改进。本文使用OWL语言和本体构建工具Protégé构建了一个小型的教育技术领域的本体模型,将该模型用于实验。实验结果分析表明,本文提出的方法能有效地提高文本分类的精度和降低特征向量的维数。
【关键词】:文本特征选取 本体 映射 概念 特征加权
【学位授予单位】:河北大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:C931.6
【目录】:
  • 摘要5-6
  • Abstract6-9
  • 第1章 引言9-14
  • 1.1 研究背景9
  • 1.2 国内外研究现状9-12
  • 1.2.1 国外研究现状10-11
  • 1.2.2 国内研究现状11-12
  • 1.3 本文所做的主要研究工作12
  • 1.4 论文组织结构12-13
  • 1.5 本章小结13-14
  • 第2章 相关理论及其技术14-23
  • 2.1 文本的预处理和特征表示14-16
  • 2.1.1 向量空间模型15
  • 2.1.2 布尔模型15-16
  • 2.2 传统的文本特征选取方法16-19
  • 2.2.1 互信息16-17
  • 2.2.2 信息增益17-18
  • 2.2.3 CHI 统计18
  • 2.2.4 基于文档频率的方法18-19
  • 2.3 传统的文本特征选取方法的比较分析19-20
  • 2.4 本体及其在信息检索领域的应用20-22
  • 2.4.1 本体的界定20-21
  • 2.4.2 本体在信息检索领域的应用21-22
  • 2.5 本章小结22-23
  • 第3章 基于本体的特征选取和加权方法研究23-41
  • 3.1 教育技术领域本体的构建23-31
  • 3.1.1 教育技术领域本体的构建工具23-25
  • 3.1.2 建模决策25
  • 3.1.3 定义类、子类和属性25-29
  • 3.1.4 教育本体模型29-31
  • 3.2 基于本体的文本特征选取方法31-35
  • 3.2.1 构建文本概念树31-33
  • 3.2.2 特征项到概念的映射33-35
  • 3.3 基于本体的加权改进35-39
  • 3.3.1 初始权重计算35-38
  • 3.3.2 基于本体的加权改进38-39
  • 3.4 本章小结39-41
  • 第4章 实验及结果分析41-47
  • 4.1 数据收集41
  • 4.2 数据处理41-44
  • 4.3 实验结果分析44-46
  • 4.4 本章小结46-47
  • 第5章 研究总结与展望47-50
  • 5.1 工作总结47-48
  • 5.2 工作展望48-50
  • 参考文献50-53
  • 致谢53-54
  • 攻读硕士学位期间发表论文情况54

【引证文献】

中国硕士学位论文全文数据库 前3条

1 李倩;基于本体的BIM环境下文档管理系统研究[D];大连理工大学;2011年

2 简璐瑶;基于领域本体的公安案情文本挖掘研究[D];南昌大学;2012年

3 钟锐;基于语义的图像检索系统基础技术研究[D];重庆大学;2012年


  本文关键词:基于本体的文本特征选取和加权方法研究,由笔耕文化传播整理发布。



本文编号:325542

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/yunyingzuzhiguanlilunwen/325542.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户99be5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com