基于深度学习的生物医学命名实体识别研究

发布时间：2024-01-10 07:43

　　随着生物医学应用文献量的快速增长以及自然语言处理(NLP)研究的迅速进展,生物医学文献挖掘所承担的作用变得日益关键。更多的科研工作者把目光转向到了从生物医学资料中获得更有意义的知识,与此同时,深度学习技术的进步有力推动着生物医学领域新文献挖掘模型的开发。但是,由于一般领域文献语料库的单词分布和生物医学特定领域技术文献语料库的单词分布不同,若直接将自然语言处理技术的进步应用于生物医学文本挖掘往往会造成识别精度不高,而且不同句子之间的相关标记可能存在不一致等问题。因此,针对上述问题,本文研究了使用深度学习的方法对生物医学命名实体的识别,主要研究内容如下:(1)本文提出了一种基于RTD改进的预训练数据增强的方法。传统的预训练方法通常采用屏蔽语言模型(MLM)的预训练方法(如BERT)通过用[MASK]替换一些标记来破坏输入,然后训练一个模型来重建原始标记。虽然将它们转移到下游NLP任务时会产生良好的结果,但它们通常需要大量的计算才能有效。作为一种替代方案,本文提出了一种更有效的预训练任务,称为替换令牌检测(RTD),并构造了针对生物医学领域的预训练语言模型Bio ELECTRA。经过实验证明...

【文章页数】：60 页

【文章目录】：
摘要
abstract
第1章绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
    1.3 本文主要研究内容
    1.4 本文的组织结构
第2章相关研究综述
    2.1 深度学习相关理论
        2.1.1 卷积神经网络(CNN)
        2.1.2 循环神经网络(RNN)与长短期记忆网络(LSTM)
        2.1.3 双向长短期记忆网络(Bi-LSTM)
        2.1.4 Transformer
        2.1.5 生成对抗网络(GAN)
    2.2 命名实体识别相关算法
        2.2.1 BERT及其衍生模型
        2.2.2 条件随机场(CRF)及 BiLSTM-CRF
    2.3 数据与评价指标
        2.3.1 数据集与标注方法
        2.3.2 评价指标
    2.4 本章小结
第3章基于RTD改进的预训练数据增强方法
    3.1 引言
    3.2 传统的预训练数据增强方法
    3.3 改进的预训练数据增强方法
    3.4 基于 BioELECTRA 的生物医学实体识别预训练模型
    3.5 实验及结果分析
        3.5.1 数据集介绍
        3.5.2 输入/输出表示
        3.5.3 环境配置
        3.5.4 实验结果分析
    3.6 本章小结
第4章基于注意力机制改进的 BiLSTM-CRF 生物医学命名实体识别框架
    4.1 引言
    4.2 LSTM-CRF 和 BiLSTM-CRF 模型相关理论
    4.3 传统的 BiLSTM-CRF 生物医学命名实体识别框架
    4.4 改进的 BiLSTM-CRF 生物医学命名实体识别框架
        4.4.1 词性与组块分析
        4.4.2 Att-BiLSTM-CRF 生物医学命名实体识别框架
    4.5 实验及结果分析
        4.5.1 对齐函数对 Att-BiLSTM-CRF 模型的影响
        4.5.2 文档级和句子级方法的性能比较
        4.5.3 附加特征对性能的影响
    4.6 生物医学命名实体识别系统设计与实现
    4.7 本章小结
第5章总结与展望
    5.1 本文工作总结
    5.2 未来展望
参考文献

本文编号：3877781

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3877781.html

上一篇：基于深度神经网络的图像显著性检测关键技术研究
下一篇：基于网络表示学习的链路预测算法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|