基于中文名称规范档的人物信息聚合研究

发布时间:2024-04-12 04:13
  名称规范的管理是图书馆机构规范控制的主要工作,在2003年我国内地及港澳台的多家机构联合建立了中文名称规范联合数据库,针对数据库资源的检索和查询,为用户提供了中文名称规范一站式查询系统。不同机构对名称规范档中数据资源的管理缺乏统一的整合方法,导致共享性较差;而且数据来源比较单一,主要为书目数据,降低了数据库名称资源的服务水平和信息质量。人物作为客观世界最为重要的实体,其相关的数据资源在中文名称规范档中冗余程度较高,同一人物的多条标目缺乏语义关联和信息整合。通过构建人物关联模型,完成人物实体的信息聚合,进而提高图书馆特有资源的数据质量具有重要意义。当前,国内外众多知识库均覆盖了人物、组织、会议等多类型的实体数据,各知识库对实体对象的构造方式、描述属性和语义关联都各有特点,且大多知识库都是基于开放和关联的。中文名称规范档的人物实体属性匮乏,存储格式难以关联和优化,信息聚合成为解决上述问题的有效途径,既能整合国内多家机构的重复条目,进而识别同一实体,又能与其他不同类型的数据库建立链接,形成属性丰富的人物关联模型,满足多元的知识服务和需求。本文基于中文名称规范档的人物信息聚合问题进行了理论探讨...

【文章页数】:79 页

【学位级别】:硕士

【部分图文】:

图2.1语义网结构层次模型图

图2.1语义网结构层次模型图

基于中文名称规范档的人物信息聚合研究12图2.1语义网结构层次模型图2.1.2本体与实例的关系本体(ontology)最先是由亚里士多德提出的,在哲学领域被定义为:“对世界客观存在物体的系统性描述,即存在论”。1960年本体被引入知识工程领域后,相关专家学者给出了许多不同的定义。....


图3.3待处理文本统计图

图3.3待处理文本统计图

基于中文名称规范档的人物信息聚合研究22200_7ba0yba0y|b名400_a变异名称810_a数据参考来源830_a作者简介856_u个人简况名称规范档中人物名称数据大多来自书目记录,因此本文选择《亚洲周刊》评选的20世纪排名前一百的中文小说和中国近现代作家排行榜前一百名的....


图3.7:层次聚类过程

图3.7:层次聚类过程

第三章国内中文名称规范档的人物聚合27图3.7:层次聚类过程经过上述相似度计算过程后,实验获得匹配数据。本文采用Purity和F-score分数对聚类结果进行评价,Purity是聚类评价方法之一,需要计算正确聚类的文档数占全部文档数的比例,其中Ω表示聚类的集合,ω_k表示第k类个....


图3.8:聚类结果评估统计图

图3.8:聚类结果评估统计图

基于中文名称规范档的人物信息聚合研究28R=+在基于聚类分析的中文个人名称实验中,随机抽取20个实体的数据进行统计,精确率P、召回率R、F-score分数如图3.8所示,总体效果较好。实验结果证明了基于中文个人名称聚类并建立实体链接的有效性,其中purity率计算得:88.514....



本文编号:3951646

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3951646.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户87e55***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]