当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的中文信息抽取算法研究

发布时间:2022-10-08 22:08
  随着信息时代的发展,大量信息以文本的形式存在于互联网。互联网的文本知识通常是以非结构化的形式存储在网页之中,常规的规则抽取手段无法很好的抽取这些知识。因此如何使用自动化的方法从文本中抽取出关键信息便成了行业内迫切需要解决的需求。信息抽取算法技术的主要目的是精准、快速、高效的从非结构化的自然语言文本中抽取出结构化的信息,并以相应预设定的格式进行保存,以供后续使用。三元组信息抽取的传统研究思路包括基于规则抽取、机器学习抽取以及深度学习方式抽取等。基于深度学习的方式相比之前的研究方法在建模效果上具有很大的优势,而在深度学习方式中,使用流水线方式和联合学习的方式存在实体对的指向、匹配问题,基于层次二分标注的方式虽然有效的对实体对进行建模,但也会存在多建模步骤引起的错误传播问题。本文为了解决多阶段的预测问题,设计实现了有向图结构的一阶段模型。此模型利用有向图的邻接矩阵来同时表达实体对的位置,以及实体词之间的指向关系。同时本论文设计了多种构建有向图邻接矩阵的模型,其中基于双线性矩阵注意力模型能够有效的利用注意力矩阵构造有向图的邻接矩阵。本文在层次二分标注模型的基础上,探索了不同的范围提取模型提取实... 

【文章页数】:64 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 课题研究背景及研究意义
    1.2 国内外研究现状
    1.3 本文主要研究内容
    1.4 研究创新点
    1.5 论文结构安排
第2章 信息抽取理论与技术基础
    2.1 引言
    2.2 基于流水线方法的信息抽取算法
    2.3 基于联合学习的信息抽取算法
        2.3.1 基于标注策略的联合学习方法
        2.3.2 基于参数共享的联合学习方法
    2.4 基于层次化二分标注的信息抽取算法
    2.5 算法模型基础
        2.5.1 Word2Vec模型
        2.5.2 FCN模型
        2.5.3 CNN模型
        2.5.4 RNN模型
        2.5.5 LSTM模型
        2.5.6 BERT模型
        2.5.7 BOE模型
        2.5.8 END模型
    2.6 本章小结
第3章 基于有向图与层次化二分标注的信息抽取模型构建
    3.1 引言
    3.2 基于有向图结构的一阶段信息抽取模型构建
        3.2.1 算法思想与算法流程
        3.2.2 线性矩阵注意力模型解码模型
        3.2.3 基于混合线性矩阵注意力解码模型
        3.2.4 双线性矩阵注意力解码模型
    3.3 基于层次二分标注二阶段模型构建
        3.3.1 算法思想与算法流程
        3.3.2 端点加法范围提取模型
        3.3.3 基于混合端点加法范围提取模型
        3.3.4 基于自注意力范围提取模型
        3.3.5 解码匹配
    3.4 基于层次二分标注三阶段模型构建
        3.4.1 算法思想与算法流程
    3.5 本章小结
第4章 实验结果及分析
    4.1 实验数据
    4.2 实验设计
        4.2.1 实验参数设计
        4.2.2 f1-score指标
        4.2.3 动态权重优化方法
    4.3 实验结果与分析
        4.3.1 不同矩阵注意力机制实验结模
        4.3.2 不同字嵌入编码能力实验结果
        4.3.3 不同范围提取模型主体实验结果
        4.3.4 不同解码器模型的序列建模能力
        4.3.5 不同实体关系分类模型实验结果
    4.4 改进模型与现有方法对比
    4.5 三类模型横向对比
    4.6 本章小节
结论
参考文献
致谢


【参考文献】:
期刊论文
[1]Word2vec的工作原理及应用探究[J]. 周练.  科技情报开发与经济. 2015(02)
[2]基于条件随机场的中医临床病历命名实体抽取[J]. 刘凯,周雪忠,于剑,张润顺.  计算机工程. 2014(09)
[3]命名实体识别研究进展综述[J]. 孙镇,王惠临.  现代图书情报技术. 2010(06)



本文编号:3688516

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3688516.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c2d30***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com