当前位置:主页 > 科技论文 > 搜索引擎论文 >

无监督中文实体关系抽取研究

发布时间:2017-03-31 10:05

  本文关键词:无监督中文实体关系抽取研究,由笔耕文化传播整理发布。


【摘要】:实体关系抽取在信息抽取研究领域是非常重要的课题。其应用领域广泛,特别是这几年随着互联网大发展,传统的基于关键字索引的搜索引擎已经渐渐无法满足用户日益提升的需求。知识图谱技术的提出,无疑为搜索引擎提供了一条新出路。而知识图谱的构建是建立在实体识别与实体关系抽取的基础之上,中文实体识别在早年已经较为成熟,因而实体关系抽取研究的意义就变得更加重要。传统的实体关系抽取都是采用规则匹配或者有监督的机器学习。虽然两种方法都具有较高准确性,但是由于上述两种方法都需要有大量的人工介入,并且领域通用性较差,因而不适合大规模的应用。所以近些年来半监督或者无监督实体关系抽取相继成为研究热点。国外半监督与无监督研究相对开展较早,提出了很多较为优秀的方法。相比之下,国内该领域由于中文语法的复杂性和与英文语法的区别性,国外的较多研究成果不具有借鉴意义。虽然近年来很多学者提出了多种中文实体关系抽取方法,但由于网络语言更新较快,不断有新的语言现象出现,且网络语言的语法较为随意,因而目前特征获取不准和精度低的问题依然存在。本文提出了一种在互联网开放式环境中,采用大规模语料抽取实体对关系的无监督方法。该方法同样是基于特征向量文本抽取的共同假设,即存在相同或相似关系的实体对,其上下文内容较为相近。基于此假设,实体对关系的抽取,就变成了实体对特征向量相似度的计算,然后再通过对相似实体对特征的聚类,提取出关键词描述该类实体对关系。本文的主要工作体现在三个方面:首先,在经典上下文窗口的基础之上,通过语料统计分析,提出了一种改进的弹性上下文窗口方法获取特征词。其次,本文引入互信息方法计算特征词权值,并针对互信息方法不足做出了改进。最后,提出了一种通过预聚类和采用标准分数的方法,改进经典k means在K值和聚类初始中心选择与孤立点处理上的不足。为了验证提出方法的有效性。在网络获取的语料上,对于几种不同的方案分别进行了区分实验。从结果上可以看出,本文提出的几种方法都能够有效提升实体关系抽取效果。
【关键词】:知识图谱 关系抽取 句法特征 k means 互信息
【学位授予单位】:中国地质大学(北京)
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-9
  • 1 绪论9-15
  • 1.1 课题来源及背景9-10
  • 1.2 研究目的与意义10
  • 1.3 实体关系抽取研究现状10-12
  • 1.4 本文主要研究内容12-13
  • 1.5 论文的组织结构13-15
  • 2 相关技术及理论15-26
  • 2.1 实体关系抽取方法概述15-17
  • 2.1.1 基于模式匹配的关系抽取15-16
  • 2.1.2 无监督机器学习关系抽取16-17
  • 2.2 实体关系特征获取方法介绍17-20
  • 2.2.1 一般性关系特征获取方式18-19
  • 2.2.2 无监督抽取关系特征获取方式19-20
  • 2.3 实体对聚类方法介绍20-23
  • 2.3.1 聚类技术简介20-23
  • 2.3.2 无监督关系抽取聚类23
  • 2.4 抽取工作评价标准23-25
  • 2.4.1 实体关系抽取效果评价24
  • 2.4.2 实体关系聚类效果评价24-25
  • 2.5 本章小结25-26
  • 3 实体关系特征获取算法改进26-40
  • 3.1 相关术语定义26-27
  • 3.2 实体关系特征选择27-34
  • 3.2.1 基于位置与词性的关系特征的抽取27-31
  • 3.2.2 基于句法分析的关系特征抽取31-34
  • 3.3 特征数值化与词集合的构建34-39
  • 3.3.1 停用词处理34
  • 3.3.2 特征权重计算经典方法34-36
  • 3.3.3 对MI互信息法的改进36-39
  • 3.4 本章小结39-40
  • 4 实体关系抽取聚类算法改进40-53
  • 4.1 根据实体类型对实体对进行类别预划分41-42
  • 4.2 关系抽取中相似度计算42-44
  • 4.2.1 相似系数计算方法42-43
  • 4.2.2 距离函数计算方法43-44
  • 4.3 K MEANS聚类算法改进44-50
  • 4.3.1 k means算法的流程44-45
  • 4.3.2 k means的研究热点与主要问题45-47
  • 4.3.3 算法k值与初始聚类中心获取方法改进47-48
  • 4.3.4 对于孤立点处理的改进48-50
  • 4.4 算法准则函数50-51
  • 4.5 关系标签标注51-52
  • 4.6 本章小结52-53
  • 5 实体关系抽取系统设计与实验53-63
  • 5.1 系统原型设计与实现53-55
  • 5.1.1 系统处理流程53
  • 5.1.2 系统整体框架53-55
  • 5.1.3 系统开发环境55
  • 5.2 实验情况55-62
  • 5.2.1 实验数据基本情况55-57
  • 5.2.2 实验设计57
  • 5.2.3 实验结果及分析57-62
  • 5.3 本章小结62-63
  • 6 总结与展望63-65
  • 6.1 论文工作总结63-64
  • 6.2 工作展望64-65
  • 致谢65-66
  • 参考文献66-68

【参考文献】

中国期刊全文数据库 前2条

1 刘海峰;刘守生;张学仁;;聚类模式下一种优化的K-means文本特征选择[J];计算机科学;2011年01期

2 虞欢欢;钱龙华;周国栋;朱巧明;;基于合一句法和实体语义树的中文语义关系抽取[J];中文信息学报;2010年05期

中国硕士学位论文全文数据库 前1条

1 宁海燕;实体关系自动抽取技术的比较研究[D];哈尔滨工业大学;2010年


  本文关键词:无监督中文实体关系抽取研究,,由笔耕文化传播整理发布。



本文编号:279445

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/279445.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1e496***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com