当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于结构化数据的双语自动问答系统研究与实现

发布时间:2017-04-03 20:10

  本文关键词:基于结构化数据的双语自动问答系统研究与实现,由笔耕文化传播整理发布。


【摘要】:随着信息时代的到来和web2.0技术的快速发展,结构化数据得到极大丰富。由于传统搜索引擎的固有缺陷,自动问答受到越来越多研究者的关注。同时,结构化知识的拥有易用性高、可信度高等特点。因此,研究更加高效、实用的基于结构化数据的自动问答系统,具有非常重要的研究意义和实用价值。本文旨在研究基于结构化数据的问答系统中涉及的关键技术,并在研究的基础上实现基于DBpedia和百度百科三元组结构化数据的双语自动问答系统。论文主要工作和创新点包括:1)分析了问答系统的主要类型和研究现状,阐述了本文的研究背景和研究意义,并详细探讨了问答系统中涉及的关键技术;2)提出并实现了基于依存树的中英文问句分析算法,有效地抽取问句中的关系短语和表述,并提出启发式规则用以改善抽取效果。针对问句的特点,使用有监督机器学习方法,改进了共指消解算法。提出了基于后缀树的候选节点召回和查询扩展的方法,并基于规则对候选节点进行过滤,实现了基于排序学习的实体链接算法;3)提出并实现了融合子图匹配和SPARQL语句的答案抽取算法,提出了基于语义属性的匹配规则,改进了子图匹配算法。对于简单类型问句,系统将问句转化为查询图,进而通过子图匹配的方式在知识库中查找答案,保证系统效率;对于包含最高级、统计等形式的复杂问句,通过转换成SPARQL语句的方式查找答案,增强了问答系统可用性;4)针对中文结构化数据量较小且不完善的问题,通过翻译模块,引入英文知识库帮助回答中文问题。设计并实现了基于结构化数据的双语自动问答系统,最后通过实验验证了系统性能。
【关键词】:结构化数据 问句分析 实体链接 答案抽取 中英翻译
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-10
  • 第1章 绪论10-16
  • 1.1 研究背景与意义10-12
  • 1.1.1 研究背景10
  • 1.1.2 研究意义10-12
  • 1.2 研究现状和发展趋势12-14
  • 1.3 本文的主要工作和结构安排14-15
  • 1.3.1 本文的主要工作14
  • 1.3.2 本文的结构安排14-15
  • 1.4 本章小结15-16
  • 第2章 相关技术16-26
  • 2.1 基于结构化数据的问答系统16-19
  • 2.1.1 基于关系数据库的问答系统17-18
  • 2.1.2 基于本体的问答系统18-19
  • 2.1.3 基于XML数据库的自动问答系统19
  • 2.2 共指消解相关技术19-23
  • 2.2.1 基于规则的共指消解19-20
  • 2.2.2 基于学习的共指消解20-23
  • 2.3 实体链接相关技术23-24
  • 2.3.1 检索模型23-24
  • 2.3.2 分类模型24
  • 2.4 答案抽取相关技术24-25
  • 2.4.1 基于SPARQL语句的答案抽取24-25
  • 2.4.2 基于子图匹配的答案抽取25
  • 2.5 本章小结25-26
  • 第3章 基于依存树的问句分析与理解26-36
  • 3.1 问题描述26-27
  • 3.2 基于依存树的英文问句分析27-30
  • 3.2.1 英文问句中的关系抽取27-30
  • 3.2.2 英文问句表述抽取30
  • 3.3 中文问句分析30-32
  • 3.3.1 基于依存分析的中文问句分析30-31
  • 3.3.2 基于字典树的中文问句分析31-32
  • 3.4 基于表述对模型的共指消解32-35
  • 3.4.1 表述检测32
  • 3.4.2 表述对构建32-34
  • 3.4.3 实验结果及分析34-35
  • 3.5 本章小结35-36
  • 第4章 基于排序学习的实体链接36-44
  • 4.1 问题描述36
  • 4.2 候选知识库节点召回36-37
  • 4.3 知识库节点排序37-43
  • 4.3.1 排序特征的选择37-42
  • 4.3.2 基于排序学习的知识库节点排序42-43
  • 4.4 实验结果及分析43
  • 4.5 本章小结43-44
  • 第5章 基于结构化数据的答案抽取44-49
  • 5.1 问题描述44
  • 5.2 基于子图匹配的答案抽取44-47
  • 5.2.1 查询子图的构建和排序45
  • 5.2.2 改进的子图匹配算法45-47
  • 5.3 基于SPARQL语句的答案抽取47-48
  • 5.3.1 SPARQL语句的生成47-48
  • 5.3.2 SPARQL语句的执行48
  • 5.4 本章小结48-49
  • 第6章 BSDQA系统的设计与实现49-60
  • 6.1 引言49
  • 6.2 BSDQA总体设计49-53
  • 6.2.1 实验环境49
  • 6.2.2 系统框架49-51
  • 6.2.3 处理流程51-52
  • 6.2.4 系统演示52
  • 6.2.5 系统逻辑结构52-53
  • 6.3 系统所用知识库和工具包53-55
  • 6.3.1 双语知识库53-55
  • 6.3.2 外部工具包55
  • 6.4 BSDQA系统各模块的实现55-59
  • 6.4.1 问句分析模块55-57
  • 6.4.2 实体链接模块57
  • 6.4.3 问句翻译模块57-58
  • 6.4.4 答案抽取模块58-59
  • 6.5 实验结果及分析59
  • 6.6 本章小结59-60
  • 第7章 总结与展望60-61
  • 参考文献61-65
  • 攻读学位期间发表论文与研究成果清单65-66
  • 致谢66

【相似文献】

中国期刊全文数据库 前10条

1 李自平,徐蓉芬,陈芝萍;结构化数据获取与处理系统[J];核电子学与探测技术;1988年01期

2 苏祖辉;;一种结构化数据交换格式及方法[J];中小企业管理与科技(上旬刊);2012年07期

3 刘大滏;赵盛;;非结构化数据的ETL设计方法探讨[J];科技创新与应用;2014年14期

4 文必龙;王瑞;姚建蓬;黄俊莲;;一种Excel数据到结构化数据的转换方法[J];佳木斯大学学报(自然科学版);2006年03期

5 金更达;潘燕军;;结构化数据长期保存问题探析[J];档案学通讯;2006年05期

6 周进刚;邢铁军;纪勇;赵大哲;;一种结构化数据缓存方法[J];计算机工程;2010年20期

7 戴弘宁,文贵华,丁月华,范崇贵;非结构化数据的可视化编辑系统[J];计算机应用研究;2003年06期

8 李爱民;谭献海;;基于XML技术的非结构化数据到结构化数据转换的研究[J];铁路计算机应用;2012年10期

9 曹金山;张泽滨;;非结构化数据的ETL设计[J];现代电子技术;2011年10期

10 潘顺,金远平,欧阳晔;结构化数据到XML数据的语义映射[J];东南大学学报(自然科学版);2002年03期

中国重要会议论文全文数据库 前4条

1 陶晓鹏;胡运发;周水庚;王宁;;面向功能集成的结构化数据采掘语言[A];第十五届全国数据库学术会议论文集[C];1998年

2 金更达;潘燕军;;结构化数据长期保存问题探析[A];2007年浙江省高等学校档案优秀论文集[C];2007年

3 黄正行;吕旭东;段会龙;李昊e,

本文编号:284904


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/284904.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e8abb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com