基于语义和论文关系知识图谱的同名学者消歧方法研究

发布时间：2023-08-10 17:00

　　随着科学文献资源库的迅速扩大,对资源数据库中的学者建立正确的学者档案以及把新增的论文划分给正确的学者是一个迫切需要解决的问题。随着论文量与日俱增,杂乱的数据来源以及复杂的学者同名情况导致该问题也变得越来越复杂,所以解决大规模科学文献数据库中的学者同名问题是一个极具挑战性的任务。针对该任务本文进行了剖析与钻研,主要的研究工作如下所示:(1)首先对大规模的学者消歧数据集进行了探索性分析,对同名学者是否在同一机构,是否有相同的研究主题,是否有相同的合作者等相关方面做了基本的分析,大致了解了同名学者之间的不同情况。(2)本文创新性地提出了使用预训练语言模型Bert和构建论文关系知识图谱的方式去获得论文最终的表示向量,其他同名消歧的方法在获得文本特征表示时使用的都是Word2vec,而我们则引入了预训练语言模型Bert。然后使用图自动编码器结合图谱上论文结点之间的关系表征来进行学习获得论文最终的表示向量,最后对得到的表示向量进行凝聚式层次聚类使得同名学者的论文数据集划分为许多类簇,从而完成了学者消歧。(3)在获得论文结点之间的关系特征时,创新性地提出了用预构建-微调的处理框架去获得结点之间的关系...

【文章页数】：71 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
1 引言
    1.1 研究背景
        1.1.1 学者消歧定义
        1.1.2 课题研究意义
    1.2 研究现状
        1.2.1 人工审查
        1.2.2 学者交互
        1.2.3 统计机器学习
    1.3 本文的组织结构
2 相关理论基础
    2.1 词向量
        2.1.1 one-hot模型
        2.1.2 Word2Vec模型
    2.2 预训练语言模型
        2.2.1 Bert的输入结构
        2.2.2 预训练任务
    2.3 TF-IDF
    2.4 图网络
        2.4.1 图网络简介
        2.4.2 图自动编码器
    2.5 本章小结
3 基于语义和论文关系知识图谱的同名学者消歧
    3.1 模型介绍
        3.1.1 现有模型
        3.1.2 现有模型的缺陷
    3.2 数据特征分析
    3.3 基于语义和关系图谱的消歧模型
        3.3.1 文本语义特征表示
        3.3.2 关系知识图谱的预构建
        3.3.3 关系知识图谱的微调
        3.3.4 构建图自动编码器模型
    3.4 本章小结
4 实验与分析
    4.1 实验概括
        4.1.1 数据集
        4.1.2 基准方法
        4.1.3 评测指标
        4.1.4 实验方案
    4.2 实验结果与分析
        4.2.1 文本语义的实验结果与分析
        4.2.2 预构建阶段的实验结果与分析
        4.2.3 微调阶段的实验结果与分析
        4.2.4 对比其他模型的实验结果与分析
    4.3 实验室数据集上的实验结果
    4.4 本章小结
5 总结与展望
    5.1 本文工作总结
    5.2 未来工作展望
参考文献
致谢
附录攻读硕士期间的个人获奖与学术成果情况

本文编号：3840886

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/tushudanganlunwen/3840886.html

上一篇：公共图书馆儿童阅读行为研究
下一篇：中西文献校勘方法比较研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|