面向自动问答的短问题分类研究

发布时间：2017-08-02 09:38

本文关键词：面向自动问答的短问题分类研究

【摘要】：随着科技的飞速前进,互联网的不断发展,信息不断的增长,如何从海量信息中快速准确地获取有用信息逐渐演变成一个愈发重要的课题。自动问答系统作为一种特殊的搜索引擎,重新回到了学者们研究的视线,它有别于传统的搜索引擎,能够理解用户以口语化表达的问题,并从后台知识库中直接返回正确答案。自动问答系统主要分为问题分类、问题理解、答案的抽取和消岐等步骤,其中问题分类占据着关键步骤中的首要位置,它可以为问题理解、答案的选取等后续步骤提供语义限制和约束。从信息论角度来说,数据所包含的信息是可以被量化的,如果信息的增多使得该事件不确定性减少,则增加的信息是与该事件相关的；反之,信息的增多没有使得该事件的不确定性减少,则增加的信息与该事件是不相关的。问题分类一般都是借助文本分类的思想,但与一个文本相比,一个问句(短文本)所包含的信息相对较少,需要对问句中仅有的信息进行分析从而确定其类别,因此,对于问题分类来说,存在着诸多挑战,主要有：用于问题所构建的特征向量空间模型维数过大,且特征向量相关性较小；问题相对短小,形成的特征向量空间也过于稀疏。为了克服上述两个难题,本文着眼于词语的语义,构造了具有语义支持能力的知识库,并将深度学习运用到向量的特征学习中,实现了一种基于语义信息的特征学习和基于语义信息的问题分类方法。具体研究如下：(1)利用百度百科信息和互信息理论计算词语语义相关度。该方法将百度百科词条与其词条标签作为图中节点,根据它们之间存在的链接关系对其进行词条聚合,然后利用互信息计算百科词条语义相关度,再选择相关度值较大的作为与其相关的词条。(2)分析了常用的文本特征选择方法,并实现了获取特定文本语料中语义类别知识库的方法,然后利用构建好的语义相关度知识库对问句中的词语进行语义扩展;以及利用语义类别知识库对问句中的词语进行语义泛化,为后续的分类做好准备。(3)利用深度学习对短问句进行特征学习。由于以词语作为特征维数高,因此首先需要对其进行语义扩展初步减少特征向量空间的维度,再进行语义泛化再次降低维度,使得词语的维度小于5000,接着利用深度学习对其特征进行学习和分类。(4)实现了基于语义信息的问题分类方法,分别对不同特征选择方法、语义扩展、语义泛化的结果利用不同的分类算法进行实验对比。最终找到适合本实验数据的分类方法与流程。为了验证本文方法的有效性,以数据堂手机语音助手实网数据作为实验数据集。实验表明,本文构建的语义知识库能提供语义支持,且基于语义信息的问题分类方法解决了特征向量空间维数高、相关性小、数据稀疏等问题,本文的特征学习方法和利用softmax函数进行分类的方法也是可行的,能得到好的效果。
【关键词】：问题分类 自动问答 深度学习 语义知识库 特征选择 语义扩展
【学位授予单位】：西南交通大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TP391.1
【目录】：

摘要6-8
Abstract8-13
第1章绪论13-18
1.1 研究背景13-14
1.2 研究现状14-16
1.3 研究内容16
1.4 研究方案16-17
1.5 论文章节安排17-18
第2章基于互信息的网络百科词条相关度计算18-30
2.1 词条相关度计算方法概述18-19
2.2 相关工作19-21
2.2.1 通过语义知识库的词条相关度计算方法19-20
2.2.2 基于大规模语料库的统计信息计算词条相关度的方法20
2.2.3 基于网络百科的词条相关度计算方法20-21
2.3 算法介绍21-26
2.3.1 百度百科网页结构21-22
2.3.2 算法流程22-23
2.3.3 互信息(MI)算法的理论基础23
2.3.4 互信息算法的实现23-26
2.4 实验结果26-29
2.4.1 实验数据26
2.4.2 实验结果26-29
2.5 本章小结29-30
第3章特征选取与降维30-43
3.1 相关工作30-31
3.2 文本预处理31-34
3.2.1 分词处理31-34
3.2.2 去除停用词34
3.3 如何选取特征34-37
3.3.1 bag-of-words特征35
3.3.2 N-gram特征35
3.3.3 词性特征35-36
3.3.4 词意特征36
3.3.5 特征选择算法36-37
3.4 语义扩展和语义泛化37-42
3.4.1 语义扩展37-39
3.4.2 语义泛化39-42
3.5 本章小结42-43
第4章基于DBN的特征学习43-49
4.1 研究背景43
4.2 相关工作43-44
4.3 深度置信网络44-45
4.4 限制玻尔兹曼机RBM45-46
4.5 对比散度(CONTRASTIVE DIVERGENCE)46-47
4.6 SOFTMAX函数回归47-48
4.7 本章小结48-49
第5章手机语音助手实网数据问题分类49-59
5.1 手机助手语音数据分类的特点49
5.2 分类的整体框架49-50
5.3 实验设置50-58
5.3.1 实验数据50-51
5.3.2 评价指标51
5.3.3 基本特征的选取51-54
5.3.4 训练数据的选取54
5.3.5 语义泛化54-55
5.3.6 分类算法55-56
5.3.7 语义扩展56-57
5.3.8 深度学习57-58
5.4 本章小结58-59
第6章原型系统的构建59-66
6.1 整体框架59-60
6.2 词条相关度计算模块60
6.3 文本预处理60-61
6.4 特征选择61-62
6.5 语义扩展62
6.6 语义泛化62-63
6.7 分类算法63-65
6.8 深度学习65-66
结论66-68
致谢68-69
参考文献69-73
攻读硕士学位期间发表的论文及科研成果73

【参考文献】

中国期刊全文数据库前10条

1 陈翠平;;基于深度信念网络的文本分类算法[J];计算机系统应用;2015年02期

2 翟继友;;基于深度置信网络的语义相关度计算模型[J];科学技术与工程;2014年32期

3 尹坤;尹红风;杨燕;贾真;;基于SimRank的百度百科词条语义相似度计算[J];山东大学学报(工学版);2014年03期

4 张志飞;苗夺谦;高灿;;基于LDA主题模型的短文本分类方法[J];计算机应用;2013年06期

5 张巍;陈俊杰;;信息熵方法及在中文问题分类中的应用[J];计算机工程与应用;2013年10期

6 延霞;范士喜;;面向问答社区的粗粒度问句分类算法[J];计算机应用与软件;2013年01期

7 邱锡鹏;缪有栋;黄萱菁;;基于主动学习的中文问题分类数据集构建[J];哈尔滨工业大学学报;2012年05期

8 刘小明;樊孝忠;李方方;;一种结合本体和焦点的问题分类方法[J];北京理工大学学报;2012年05期

9 曾淑琴;吴扬扬;;基于HowNet的词语相关度计算模型[J];微型机与应用;2012年08期

10 郑艳红;张东站;;基于同义词词林的文本特征选择方法[J];厦门大学学报(自然科学版);2012年02期

中国重要会议论文全文数据库前1条

1 王红玲;吕强;徐瑞;;一种基于知网的中文语义相关度计算模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

中国博士学位论文全文数据库前1条

1 陈宇;基于深度置信网络的中文信息抽取方法[D];哈尔滨工业大学;2014年

，

本文编号：608671

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/608671.html

上一篇：遗传模拟退火算法在搜索引擎中的应用
下一篇：互联网金融发展的业务模式及优势探析

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|