当前位置:主页 > 科技论文 > 搜索引擎论文 >

自动问答系统中基于WordNet的句子相似度计算研究与实现

发布时间:2017-05-12 16:22

  本文关键词:自动问答系统中基于WordNet的句子相似度计算研究与实现,由笔耕文化传播整理发布。


【摘要】:随着信息技术的快速发展,网络上的信息和数据越来越多,人们对信息检索的需求越来越大。如何从大量的信息中搜索到需要的信息,,是一个困难和挑战。人们进行信息检索主要是利用搜索引擎。传统的利用关键词进行搜索的搜索引擎存在搜索过程复杂、返回信息量大等问题。因此,学者们提出了自动问答系统的概念。 自动问答系统,对用户使用自然语言提出的问题,经过一系列处理,用自然语言以简洁的方式返回答案给用户。其中最常见一种是基于常问问题集(FAQ)知识库的自动问答系统。而句子相似度计算是基于FAQ自动问答系统的核心。目前主要的句子相似度算法有基于向量空间模型TF-IDF算法、基于语义的句子相似度算法等。本文采用的是基于WordNet语义词典的基于语义相似度算法,并与编辑距离计算方法相结合。WordNet是现今世界上最通用的一部英语语义词典,它利用同义词集合和同义词集合间的语义关系组织起来。WordNet为自然语言处理、信息检索等领域提供了很大的帮助。 本文首先对自动问答系统的相关技术进行了介绍,然后重点介绍了本文使用的基于WordNet进行句子相似度计算的方法。其中通过对几种常用的句子相似度计算方法进行分析,针对现有的句子相似度计算方法,本文提出了一种既考虑了句子语义信息又考虑了句子中词语位置信息的一种新的句子相似度计算方法。其中句子语义信息是利用WordNet语义词典求句子中词语的最大匹配方法进行计算,词语位置信息是利用基于编辑距离进行相似度计算。然后把这种基于WordNet句子相似度计算方法运用到自动问答系统中,利用这种新方法设计和实现了一个基于FAQ的自动问答系统。在自动问答系统的基础上,对新的句子相似度计算方法进行测试并确定方法权值,同时对比不同的句子相似度计算方法,对实验结果进行分析,验证新方法的有效性。最后,对本文所做的研究工作进行总结,并指出工作中还需要一步解决的问题,同时指出了可深入研究的方向和发展前景。
【关键词】:自动问答系统 相似度计算 编辑距离 WordNet
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-9
  • 第一章 绪论9-14
  • 1.1 研究背景及意义9-10
  • 1.2 国内外研究现状10-12
  • 1.3 主要研究内容12-13
  • 1.4 论文的组织结构13-14
  • 第二章 自动问答系统相关技术研究14-24
  • 2.1 自动问答系统的基本框架和关键技术14-15
  • 2.2 自动问答系统的分类15-16
  • 2.3 WordNet 语义词典16-23
  • 2.3.1 WordNet 概述16-17
  • 2.3.2 WordNet 的词汇组织结构17-18
  • 2.3.3 WordNet 中语义关系18-19
  • 2.3.4 关于 WordNet 3.019-21
  • 2.3.5 WordNet 3.0 的文件结构21-23
  • 2.4 本章小结23-24
  • 第三章 基于 WordNet 的句子相似度计算24-43
  • 3.1 基于 WordNet 的句子预处理流程25-27
  • 3.1.1 断词25
  • 3.1.2 去除停用词25
  • 3.1.3 词干化25-26
  • 3.1.4 词性标注26
  • 3.1.5 消除歧义26-27
  • 3.2 基于 WordNet 的词汇相似度计算27-30
  • 3.2.1 基于信息量的语义相似度计算28-29
  • 3.2.2 基于路径的语义相似度计算29-30
  • 3.3 常用的句子相似度算法30-35
  • 3.3.1 基于向量空间模型的 TF-IDF 计算方法30-33
  • 3.3.2 基于语义的句子相似度计算方法33
  • 3.3.3 基于编辑距离的句子相似度算法33-35
  • 3.4 改进的句子相似度计算方法35-42
  • 3.4.1 改进的基于语义的句子相似度计算方法36-40
  • 3.4.2 改进的基于 WordNet 语义和编辑距离的句子相似度计算方法40-42
  • 3.5 本章小结42-43
  • 第四章 基于 WordNet 的句子相似度算法的自动问答系统设计与实现43-55
  • 4.1 FAQ 自动问答系统的基本流程43-44
  • 4.2 系统设计与实现44-53
  • 4.2.1 建立 FAQ 常问问题集46-47
  • 4.2.2 句子预处理47-48
  • 4.2.3 相似度计算48-49
  • 4.2.4 系统演示效果49-53
  • 4.3 本章小结53-55
  • 第五章 实验与结果分析55-65
  • 5.1 测试集合建立55-56
  • 5.2 评价方法56-57
  • 5.3 基于 WordNet 并结合编辑距离的句子相似度计算方法权值确定测试57-58
  • 5.4 句子相似度计算方法对比实验58-60
  • 5.5 结果对比分析60-63
  • 5.6 本章小结63-65
  • 第六章 总结65-68
  • 6.1 主要工作总结65-66
  • 6.2 存在问题66-67
  • 6.3 前景展望67-68
  • 参考文献68-71
  • 致谢71-72
  • 附件72

【参考文献】

中国期刊全文数据库 前10条

1 纪晓东;谢信乾;;基于二分图最大赋权匹配的网络编码中继选择[J];北京邮电大学学报;2011年05期

2 杨倩倩;徐栋;;TFIDF方法在英语句子相似度计算中的应用初探[J];电脑知识与技术;2012年17期

3 秦兵,刘挺,王洋,郑实福,李生;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期

4 史斌;闫健卓;王普;方丽英;;基于本体的概念语义相似度度量[J];计算机工程;2009年19期

5 王艳娜;周子力;何艳;;WordNet中基于IC的概念语义相似度算法[J];计算机工程;2011年22期

6 厍向阳;罗晓霞;;点和边有容量约束的网络最大流新算法[J];计算机应用;2008年01期

7 刘宝艳;林鸿飞;赵晶;;基于改进编辑距离和依存文法的汉语句子相似度计算[J];计算机应用与软件;2008年07期

8 丁凡;王斌;白硕;刘宜轩;李亚楠;;文档检索中句法信息的有效利用研究[J];中文信息学报;2008年04期

9 刘宇鹏;李生;赵铁军;;基于WordNet词义消歧的系统融合[J];自动化学报;2010年11期

10 边振兴;;WordNet中概念语义相似度IC参数模型研究[J];计算机工程与应用;2011年19期


  本文关键词:自动问答系统中基于WordNet的句子相似度计算研究与实现,由笔耕文化传播整理发布。



本文编号:360277

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/360277.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b3334***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com