当前位置:主页 > 科技论文 > 自动化论文 >

基于词粒度知识迁移的依存句法分析研究

发布时间:2022-11-12 12:35
  随着自然语言处理的发展,依存句法分析作为一个重要的基础任务一直备受关注。依存句法分析旨在获取句子中词语之间的修饰关系,为机器翻译、信息抽取、问答等下游自然语言处理任务提供丰富的句法指导,其准确率严重影响下游任务的性能。基于统计和基于神经网络的依存句法分析器依赖于大量的已标注数据,否则容易出现过拟合问题,导致依存句法分析在低资源领域的性能较低。标注依存句法数据需要丰富的语言学知识,是一个耗时耗力的工作。因此,如何将自然标注数据以及现有的已标注数据有效地迁移到低资源领域成为非常有价值的研究问题。在句法数据迁移的过程中,存在一些障碍,比如句法知识形态不同、领域之间词汇差异较大等,影响了迁移性能。本文提出通过四种不同的词粒度知识,构建不同数据之间信息交互的桥梁,提高句法数据的迁移性能。具体包括利用词共现将查询日志中蕴含的句法知识迁移到无监督依存句法分析中,利用句法类、领域一致的词表示以及词的领域属性来跨越领域之间的词汇鸿沟,从而更好地迁移句法结构。1.基于词共现知识的无监督依存句法分析。近年来,无监督依存句法分析因其不需要昂贵的已标注树库越来越流行,但准确率仍然离实际应用有较大的距离,部分原因... 

【文章页数】:129 页

【学位级别】:博士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 课题背景及研究意义
        1.1.1 课题背景
        1.1.2 研究意义
    1.2 研究现状及分析
        1.2.1 依存句法分析
        1.2.2 无监督依存句法分析
        1.2.3 依存句法分析的迁移学习
        1.2.4 基于词粒度知识的自然语言处理
    1.3 本文的研究内容及组织结构
        1.3.1 研究内容
        1.3.2 组织结构
第2章 基于词共现知识的无监督依存句法分析
    2.1 引言
    2.2 相关工作
    2.3 基于配价的依存句法模型
    2.4 查询日志中蕴含的句法知识
        2.4.1 查询日志的语言学分析
        2.4.2 基于词共现句法知识的表示
    2.5 基于query知识增强的无监督依存模型结构及推理
        2.5.1 基于query知识增强的无监督依存模型
        2.5.2 基于query知识增强的无监督依存模型的推理
    2.6 实验及结果分析
        2.6.1 实验数据
        2.6.2 基线系统及参数设置
        2.6.3 中文无监督依存句法分析的实验结果
        2.6.4 英文无监督依存句法分析的实验结果
        2.6.5 中文数据的案例分析
        2.6.6 查询日志数据规模的影响
    2.7 本章小结
第3章 基于句法类的依存句法分析
    3.1 引言
    3.2 相关工作
    3.3 基于图的依存句法分析模型
    3.4 句法类
        3.4.1 句法类的定义
        3.4.2 基于依存上下文学习词嵌入
        3.4.3 依据词嵌入获取句法类
        3.4.4 句法类在依存句法分析中的应用
    3.5 实验及结果分析
        3.5.1 实验设置
        3.5.2 基于统计和基于神经网络的依存句法分析实验
        3.5.3 词汇句法类的案例分析
    3.6 本章小结
第4章 基于领域一致词嵌入的依存句法分析领域迁移
    4.1 引言
    4.2 相关工作
    4.3 基于双仿射的深度依存句法分析模型
    4.4 利用WGAN学习领域一致的词表示
        4.4.1 面向领域一致词表示的生成器
        4.4.2 基于深度卷积网络的判别器
        4.4.3 损失函数设置
        4.4.4 生成器与判别器的训练过程
    4.5 学习领域一致词表示实验及分析
        4.5.1 数据及参数设置
        4.5.2 WGAN的稳定性及收敛性分析
        4.5.3 依据词相似度分析领域一致词表示
    4.6 依存句法分析领域自适应实验及分析
        4.6.1 数据及参数设置
        4.6.2 新闻领域迁移到生物领域的依存句法分析结果
        4.6.3 生物领域迁移到新闻领域的依存句法分析结果
        4.6.4 不同依存关系上的实验结果分析
        4.6.5 依存句法分析案例分析
    4.7 本章小结
第5章 基于词汇领域属性的部分去词汇化依存句法分析
    5.1 引言
    5.2 相关工作
    5.3 利用生成式对抗网络识别词汇的语境化领域属性
        5.3.1 词汇语境化领域属性的识别
        5.3.2 面向部分去词汇化句子的分类器
        5.3.3 损失函数设置
        5.3.4 生成式对抗网络的的博弈训练
    5.4 掩码在依存句法分析领域迁移中的应用
        5.4.1 依存句法分析模型
        5.4.2 隐式向量拼接
        5.4.3 显式元素替换
    5.5 实验及结果分析
        5.5.1 数据及参数设置
        5.5.2 掩码的隐式应用实验结果
        5.5.3 Token级掩码的案例分析
        5.5.4 Token级掩码的显式应用
    5.6 本章小结
结论
参考文献
攻读博士学位期间发表的论文及其他成果
致谢
个人简历


【参考文献】:
期刊论文
[1]适应多领域多来源文本的汉语依存句法数据标注规范[J]. 郭丽娟,李正华,彭雪,张民.  中文信息学报. 2018(10)
[2]面向中文电子病历的句法分析融合模型[J]. 蒋志鹏,关毅.  自动化学报. 2019(02)
[3]多领域中文依存树库构建与影响统计句法分析因素之分析[J]. 邱立坤,史林林,王厚峰.  中文信息学报. 2015(05)
[4]基于用户行为分析的搜索引擎自动性能评价[J]. 刘奕群,岑荣伟,张敏,茹立云,马少平.  软件学报. 2008(11)
[5]基于大规模日志分析的搜索引擎用户行为分析[J]. 余慧佳,刘奕群,张敏,茹立云,马少平.  中文信息学报. 2007(01)

博士论文
[1]基于分布表示的跨语言跨任务自然语言分析[D]. 郭江.哈尔滨工业大学 2017
[2]基于核方法的语义角色标注研究[D]. 车万翔.哈尔滨工业大学 2008



本文编号:3706378

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3706378.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户88967***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com