作者姓名消歧方法研究与应用

发布时间:2024-02-18 18:43
  信息化水平的不断提高加速了图书馆的数字化建设,数字图书馆极大地便捷了人们的学习和工作。然而,数字图书馆的高速发展也带来了数据碎片化的问题,导致数据质量低、可用性差。作者姓名歧义是数字图书馆存在的典型问题之一,该问题是指多个不同的作者共享同一姓名,其严重影响着数字图书馆的内容质量和服务体验。作者姓名消歧旨在识别拥有相同姓名的不同作者及其各自发表的文章。由于数据的海量性、低质性和相依性,作者姓名消歧任务面临着巨大的挑战。目前主流的方法存在特征表达能力不足、引入低质关系等问题,因此,作者姓名消歧任务的性能还有很大的上升空间。为此,本文从提高特征表达能力和降低低质关系的影响出发,研究作者姓名消歧方法,主要贡献如下:·提出基于多类型特征融合的作者姓名消歧方法。为解决目前主流方法中特征表达能力不足、未消歧的合作者引入了低质关系的局限,本文提出了多类型特征融合的作者姓名消歧方法CMFAD,充分挖掘文章的隐式和显式特征。首先,CMFAD设计了融合多类型特征的分类模型来预测两篇文章属于同一作者的概率,特征包括:基于注意力机制的孪生Bi LSTM网络挖掘的标题隐式特征和融入全局数据信息的图嵌入方法挖掘的合...

【文章页数】:95 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究背景
    1.2 研究内容与主要贡献
        1.2.1 基于多类型特征融合的作者姓名消歧方法
        1.2.2 基于增量模式的无监督作者姓名消歧方法
        1.2.3 基于标签数据的作者姓名消歧优化方法
    1.3 组织结构
第二章 研究现状
    2.1 基于监督学习的作者姓名消歧方法
        2.1.1 基于显式特征的作者姓名消歧方法
        2.1.2 基于隐式特征的作者姓名消歧方法
        2.1.3 基于多类型特征的作者姓名消歧方法
    2.2 基于无监督学习的作者姓名消歧方法
        2.2.1 基于自上而下方式的作者姓名消歧方法
        2.2.2 基于自下而上方式的作者姓名消歧方法
第三章 基于多类型特征融合的作者姓名消歧方法
    3.1 问题定义
    3.2 方法架构及详解
        3.2.1 整体架构
        3.2.2 标题隐式特征
        3.2.3 合作关系隐式特征
        3.2.4 显式特征
        3.2.5 推理机制
    3.3 实验分析
        3.3.1 实验设置
        3.3.2 性能比较
        3.3.3 各部分特征作用分析
        3.3.4 推理机制有效性分析
        3.3.5 可扩展性分析
        3.3.6 分类模型收敛性分析
        3.3.7 超参数分析
    3.4 本章小结
第四章 基于增量模式的无监督作者姓名消歧方法
    4.1 问题定义
    4.2 方法架构及详解
        4.2.1 整体架构
        4.2.2 稳定合作网络构建
        4.2.3 全局合作网络构建
    4.3 实验分析
        4.3.1 实验设置
        4.3.2 性能比较
        4.3.3 各阶段作用分析
        4.3.4 可扩展性分析
        4.3.5 增量模式分析
        4.3.6 相似度函数合理性分析
    4.4 本章小结
第五章 基于标签数据的作者姓名消歧优化方法
    5.1 问题发现
    5.2 优化方案设计
        5.2.1 基于高精度规则的预筛选方案
        5.2.2 基于标签数据的预筛选方案
    5.3 实验分析
        5.3.1 实验设置
        5.3.2 性能比较
        5.3.3 预筛选方案作用分析
        5.3.4 可扩展性分析
    5.4 本章小结
第六章 总结与展望
参考文献
致谢
攻读硕士学位期间发表论文、参与科研和获得荣誉情况



本文编号:3902353

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3902353.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户9f6ea***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com