当前位置:主页 > 科技论文 > 搜索引擎论文 >

中文分词歧义消解技术的研究

发布时间:2017-05-12 01:04

  本文关键词:中文分词歧义消解技术的研究,由笔耕文化传播整理发布。


【摘要】:搜索引擎是人们搜索信息、获取知识的重要工具。而中文分词作为其中的一个重要环节,也是近几年来该领域的热点研究问题。歧义消解技术是中文分词的一个重要组成部分,该技术是通过一定策略将分词产生的歧义字段进行消除的过程,从而提高分词的精度。本文研究的主要内容如下: (1)研究了中文分词歧义消解技术的研究背景、研究意义及国内外研究现状。 (2)深入研究了中文分词歧义消解技术及其各种算法。主要包括歧义字段产生的原因、歧义字段的分类、消解歧义字段的算法以及在歧义字段处理阶段面临的挑战。 (3)提出了歧义消解的改进算法。在该算法中,引入了支持度因子作为切分的标准,分别对歧义矩阵识别出来的交集型和组合型歧义进行消解。对于交集型歧义,根据歧义字段在文档中的分布情况,构造不同切分方式的支持度因子,,最后通过支持度因子的大小来决定从前或从后切分;对于组合型歧义,同时构造从分和从合的支持度因子,根据支持度因子的大小来确定从合还是从分的切分方式。 (4)设计实现了一个基于支持度因子的对交集型歧义和组合型歧义进行消解的中文分词系统。该系统由四个模块组成,即预处理模块、初步切分模块、歧义字段的识别模块和歧义字段的消解模块。在词典的设计中,采用了多个文本文件,提高了访问速度。
【关键词】:中文分词 歧义消解 交集型歧义 组合型歧义
【学位授予单位】:青岛科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • ABSTRACT5-8
  • 1 绪论8-13
  • 1.1 中文分词歧义消解的研究背景及意义8-9
  • 1.2 中文分词歧义消解技术的研究现状9-11
  • 1.2.1 国际现状研究9
  • 1.2.2 国内现状研究9-11
  • 1.3 论文的研究内容及论文结构11
  • 1.4 本章小结11-13
  • 2 中文分词歧义消解相关技术13-21
  • 2.1 歧义产生的原因13-14
  • 2.2 歧义的分类14-16
  • 2.2.1 交集型歧义14-15
  • 2.2.2 组合型歧义15
  • 2.2.3 真歧义15-16
  • 2.3 中文分词歧义消解算法的介绍16-19
  • 2.3.1 基于统计的歧义消解算法16-18
  • 2.3.2 基于规则的歧义消解算法18-19
  • 2.4 歧义消解的困难19
  • 2.5 本章小结19-21
  • 3 基于支持度因子的交集型歧义和组合型歧义的消解策略21-36
  • 3.1 基于歧义矩阵的歧义字段识别机制21-30
  • 3.1.1 现有的识别歧义字段的方法22-27
  • 3.1.2 基于歧义矩阵的歧义字段识别机制27-30
  • 3.2 基于支持度因子的歧义消解算法30-35
  • 3.2.1 基本定义30-32
  • 3.2.2 改进的基于支持度因子的交集型歧义消解32-33
  • 3.2.3 改进的基于支持度因子的组合型歧义消解33-35
  • 3.3 本章小结35-36
  • 4 基于支持度因子的交集型和组合型歧义消解算法的中文分词系统的设计及实现36-48
  • 4.1 词典的设计36-37
  • 4.2 字符串的初始化37-39
  • 4.2.1 过滤标点符号37-38
  • 4.2.2 过滤英文字符与数字38-39
  • 4.3 系统的设计39-42
  • 4.4 算法的实现42-46
  • 4.4.1 基于规则的歧义消解算法42-44
  • 4.4.2 基于统计的歧义消解算法44
  • 4.4.3 基于支持度因子的歧义消解算法44-46
  • 4.5 运行结果46-47
  • 4.6 本章总结47-48
  • 5 实验分析与结论48-54
  • 5.1 性能评价指标48-49
  • 5.2 交集型歧义的结果分析49-50
  • 5.3 组合型歧义的结果分析50-53
  • 5.4 本章小结53-54
  • 结论54-55
  • 参考文献55-59
  • 致谢59-60
  • 攻读硕士期间发表的学术论文60-61

【相似文献】

中国期刊全文数据库 前10条

1 方昌健;王有权;;基于规则和上下文语境的交集型歧义消解算法[J];科协论坛(下半月);2012年06期

2 孙承杰;王晓龙;林磊;刘远超;;一种用于基因名字规范化的多层歧义消解框架(英文)[J];自动化学报;2009年02期

3 杨晓峰,李堂秋,洪青阳;基于实例的汉语句法结构分析歧义消解[J];中文信息学报;2001年03期

4 张燕;万建成;杨潇;;基于二元组合文法的歧义消解模型[J];计算机工程与科学;2008年09期

5 袁鼎荣;李新友;邵延振;;用于中文分词的组合型歧义消解算法[J];计算机应用与软件;2011年06期

6 曲维光;吉根林;穗志方;周俊生;;基于语境信息的组合型分词歧义消解方法[J];计算机工程;2006年17期

7 尤慧丽;晏立;杨晓东;;中文分词中组合型切分歧义的消解研究[J];计算机工程与应用;2011年31期

8 张克亮;基于HNC理论的句法结构歧义消解[J];中文信息学报;2004年06期

9 丁德鑫;曲维光;徐涛;董宇;;基于CRF模型的组合型歧义消解研究[J];南京师范大学学报(工程技术版);2008年04期

10 孙茂松,左正平,黄昌宁;消解中文三字长交集型分词歧义的算法[J];清华大学学报(自然科学版);1999年05期

中国重要会议论文全文数据库 前7条

1 张雅旭;舒华;张厚粲;周晓林;;汉语句子理解中词汇歧义消解的时间历程[A];第八届全国心理学学术会议文摘选集[C];1997年

2 于泽;赵国祥;;书面韵律边界与词汇偏向对歧义句歧义消解的影响[A];心理学与创新能力提升——第十六届全国心理学学术会议论文集[C];2013年

3 孙承杰;黄昌宁;关毅;;基于标注语料库的组合歧义检测与消解[A];第三届学生计算语言学研讨会论文集[C];2006年

4 韩玉昌;任桂琴;;词汇歧义消解中句子语境作用的眼动研究[A];第十一届全国心理学学术会议论文摘要集[C];2007年

5 王治敏;俞士汶;;人称代词和名词的歧义消解研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年

6 丁德鑫;曲维光;于丽丽;陈小荷;李惠;;基于词频和语义信息的组合型歧义消解[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

7 冯志伟;;基于集合运算的德语冠词歧义消解[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

中国硕士学位论文全文数据库 前5条

1 任爱琴;汉语歧义句歧义消解的实验研究[D];辽宁师范大学;2011年

2 于泽;句子语境中动词歧义词的歧义消解[D];辽宁师范大学;2008年

3 李茜;语言优势半球对歧义动词歧义消解的影响[D];陕西师范大学;2011年

4 段立;语境计算在词语歧义消解中的应用[D];华东师范大学;2006年

5 严羽;自然语言理解中并列名词歧义消解及其在智能仪器设计领域的应用[D];西安电子科技大学;2011年


  本文关键词:中文分词歧义消解技术的研究,由笔耕文化传播整理发布。



本文编号:358425

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/358425.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0011e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com