基于结构化数据的双语自动问答系统研究与实现
本文关键词:基于结构化数据的双语自动问答系统研究与实现,由笔耕文化传播整理发布。
【摘要】:随着信息时代的到来和web2.0技术的快速发展,结构化数据得到极大丰富。由于传统搜索引擎的固有缺陷,自动问答受到越来越多研究者的关注。同时,结构化知识的拥有易用性高、可信度高等特点。因此,研究更加高效、实用的基于结构化数据的自动问答系统,具有非常重要的研究意义和实用价值。本文旨在研究基于结构化数据的问答系统中涉及的关键技术,并在研究的基础上实现基于DBpedia和百度百科三元组结构化数据的双语自动问答系统。论文主要工作和创新点包括:1)分析了问答系统的主要类型和研究现状,阐述了本文的研究背景和研究意义,并详细探讨了问答系统中涉及的关键技术;2)提出并实现了基于依存树的中英文问句分析算法,有效地抽取问句中的关系短语和表述,并提出启发式规则用以改善抽取效果。针对问句的特点,使用有监督机器学习方法,改进了共指消解算法。提出了基于后缀树的候选节点召回和查询扩展的方法,并基于规则对候选节点进行过滤,实现了基于排序学习的实体链接算法;3)提出并实现了融合子图匹配和SPARQL语句的答案抽取算法,提出了基于语义属性的匹配规则,改进了子图匹配算法。对于简单类型问句,系统将问句转化为查询图,进而通过子图匹配的方式在知识库中查找答案,保证系统效率;对于包含最高级、统计等形式的复杂问句,通过转换成SPARQL语句的方式查找答案,增强了问答系统可用性;4)针对中文结构化数据量较小且不完善的问题,通过翻译模块,引入英文知识库帮助回答中文问题。设计并实现了基于结构化数据的双语自动问答系统,最后通过实验验证了系统性能。
【关键词】:结构化数据 问句分析 实体链接 答案抽取 中英翻译
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要5-6
- Abstract6-10
- 第1章 绪论10-16
- 1.1 研究背景与意义10-12
- 1.1.1 研究背景10
- 1.1.2 研究意义10-12
- 1.2 研究现状和发展趋势12-14
- 1.3 本文的主要工作和结构安排14-15
- 1.3.1 本文的主要工作14
- 1.3.2 本文的结构安排14-15
- 1.4 本章小结15-16
- 第2章 相关技术16-26
- 2.1 基于结构化数据的问答系统16-19
- 2.1.1 基于关系数据库的问答系统17-18
- 2.1.2 基于本体的问答系统18-19
- 2.1.3 基于XML数据库的自动问答系统19
- 2.2 共指消解相关技术19-23
- 2.2.1 基于规则的共指消解19-20
- 2.2.2 基于学习的共指消解20-23
- 2.3 实体链接相关技术23-24
- 2.3.1 检索模型23-24
- 2.3.2 分类模型24
- 2.4 答案抽取相关技术24-25
- 2.4.1 基于SPARQL语句的答案抽取24-25
- 2.4.2 基于子图匹配的答案抽取25
- 2.5 本章小结25-26
- 第3章 基于依存树的问句分析与理解26-36
- 3.1 问题描述26-27
- 3.2 基于依存树的英文问句分析27-30
- 3.2.1 英文问句中的关系抽取27-30
- 3.2.2 英文问句表述抽取30
- 3.3 中文问句分析30-32
- 3.3.1 基于依存分析的中文问句分析30-31
- 3.3.2 基于字典树的中文问句分析31-32
- 3.4 基于表述对模型的共指消解32-35
- 3.4.1 表述检测32
- 3.4.2 表述对构建32-34
- 3.4.3 实验结果及分析34-35
- 3.5 本章小结35-36
- 第4章 基于排序学习的实体链接36-44
- 4.1 问题描述36
- 4.2 候选知识库节点召回36-37
- 4.3 知识库节点排序37-43
- 4.3.1 排序特征的选择37-42
- 4.3.2 基于排序学习的知识库节点排序42-43
- 4.4 实验结果及分析43
- 4.5 本章小结43-44
- 第5章 基于结构化数据的答案抽取44-49
- 5.1 问题描述44
- 5.2 基于子图匹配的答案抽取44-47
- 5.2.1 查询子图的构建和排序45
- 5.2.2 改进的子图匹配算法45-47
- 5.3 基于SPARQL语句的答案抽取47-48
- 5.3.1 SPARQL语句的生成47-48
- 5.3.2 SPARQL语句的执行48
- 5.4 本章小结48-49
- 第6章 BSDQA系统的设计与实现49-60
- 6.1 引言49
- 6.2 BSDQA总体设计49-53
- 6.2.1 实验环境49
- 6.2.2 系统框架49-51
- 6.2.3 处理流程51-52
- 6.2.4 系统演示52
- 6.2.5 系统逻辑结构52-53
- 6.3 系统所用知识库和工具包53-55
- 6.3.1 双语知识库53-55
- 6.3.2 外部工具包55
- 6.4 BSDQA系统各模块的实现55-59
- 6.4.1 问句分析模块55-57
- 6.4.2 实体链接模块57
- 6.4.3 问句翻译模块57-58
- 6.4.4 答案抽取模块58-59
- 6.5 实验结果及分析59
- 6.6 本章小结59-60
- 第7章 总结与展望60-61
- 参考文献61-65
- 攻读学位期间发表论文与研究成果清单65-66
- 致谢66
【相似文献】
中国期刊全文数据库 前10条
1 李自平,徐蓉芬,陈芝萍;结构化数据获取与处理系统[J];核电子学与探测技术;1988年01期
2 苏祖辉;;一种结构化数据交换格式及方法[J];中小企业管理与科技(上旬刊);2012年07期
3 刘大滏;赵盛;;非结构化数据的ETL设计方法探讨[J];科技创新与应用;2014年14期
4 文必龙;王瑞;姚建蓬;黄俊莲;;一种Excel数据到结构化数据的转换方法[J];佳木斯大学学报(自然科学版);2006年03期
5 金更达;潘燕军;;结构化数据长期保存问题探析[J];档案学通讯;2006年05期
6 周进刚;邢铁军;纪勇;赵大哲;;一种结构化数据缓存方法[J];计算机工程;2010年20期
7 戴弘宁,文贵华,丁月华,范崇贵;非结构化数据的可视化编辑系统[J];计算机应用研究;2003年06期
8 李爱民;谭献海;;基于XML技术的非结构化数据到结构化数据转换的研究[J];铁路计算机应用;2012年10期
9 曹金山;张泽滨;;非结构化数据的ETL设计[J];现代电子技术;2011年10期
10 潘顺,金远平,欧阳晔;结构化数据到XML数据的语义映射[J];东南大学学报(自然科学版);2002年03期
中国重要会议论文全文数据库 前4条
1 陶晓鹏;胡运发;周水庚;王宁;;面向功能集成的结构化数据采掘语言[A];第十五届全国数据库学术会议论文集[C];1998年
2 金更达;潘燕军;;结构化数据长期保存问题探析[A];2007年浙江省高等学校档案优秀论文集[C];2007年
3 黄正行;吕旭东;段会龙;李昊e,
本文编号:284904
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/284904.html