当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于石油领域本体的Web信息抽取技术研究

发布时间:2017-05-19 20:02

  本文关键词:基于石油领域本体的Web信息抽取技术研究,由笔耕文化传播整理发布。


【摘要】:从数字油田到智能油田转变的过程中,油田信息来源变得越来越广泛。在信息应用的过程中,用户除了管理油田内部的数据外,还需要从各种文档信息中获取数据,如Web网页、研究报告、文献等。本文主要针对当前油田企业搜索引擎本身不能直接、自动、高效的从油田各种文档中抽取出精确信息(如井的井号、井位置等),语义信息不清晰,而且模式不明确的现状进行分析,构建一种适合于石油领域的Web信息抽取系统。本文的研究会为以后油田自动报表生成和知识推理等提供依据,具有很大的现实意义和实用价值。本文在对当前基于本体的信息抽取技术的研究基础上,提出了基于石油领域本体的Web信息抽取架构模型,并设计实现了基于该模型的原型系统。本文主要研究内容有:1.针对文本中代词指代现象对信息抽取造成的不确定性问题,本文提出两种指代消解方法。针对显性代词指代问题,提出一种规则和统计相结合的方法,该方法首先采用自定义规则对特征属性进行过滤,然后采用C4.5决策树算法构建分类器,实现指代关系的判定。针对省略代词指代形式的消解问题,提出了一种省略代词指代消解模型。该模型将消解任务分成三个步骤,分别对应一个具体实现算法,共同完成指代消解。2.针对石油领域文本信息抽取不精确和语义信息不清晰的问题,本文提出了一种基于石油领域本体的信息抽取方法。针对油田属性语义特点和句子形式,利用本体解析后的信息构建抽取规则,通过属性和三元组规则对句子中实体及关系进行抽取。最后,本文设计实现了基于石油领域本体的Web信息抽取系统平台,并以石油领域相关网站的Web页面为实验对象,验证了系统信息抽取的性能。实验结果达到了预期目标,表明了本文设计在技术和方法上的可行性,具有一定的参考性和实际应用价值。
【关键词】:本体 指代消解 规则 信息抽取
【学位授予单位】:东北石油大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • ABSTRACT5-7
  • 创新点摘要7-10
  • 第一章 绪论10-15
  • 1.1 课题研究背景及意义10
  • 1.2 国内外研究现状10-12
  • 1.2.1 信息抽取研究现状10-11
  • 1.2.2 基于领域本体的Web信息抽取研究现状11-12
  • 1.3 本文主要研究内容及论文组织结构12-14
  • 1.3.1 主要研究内容12-13
  • 1.3.2 论文组织结构13-14
  • 1.4 本章小结14-15
  • 第二章 基于石油领域本体的Web信息抽取系统总体架构15-21
  • 2.1 POWIES系统总体架构15-16
  • 2.2 预处理模块16-17
  • 2.3 规则构建模块17-19
  • 2.3.1 本体理论概述17-18
  • 2.3.2 规则构建模块18-19
  • 2.4 信息抽取模块19
  • 2.5 信息抽取效果的评价指标19-20
  • 2.6 本章小结20-21
  • 第三章 文本预处理分析21-44
  • 3.1 Web网页正文提取21-24
  • 3.1.1 石油领域Web页面结构特点分析21
  • 3.1.2 Web网页正文提取算法21-24
  • 3.2 命名实体识别24-30
  • 3.2.1 词法分析24-26
  • 3.2.2 句法分析26
  • 3.2.3 句式转换26-27
  • 3.2.4 命名实体识别27-30
  • 3.3 基于统计和规则相结合的决策树算法的指代消解30-40
  • 3.3.1 指代消解及研究的问题域30-31
  • 3.3.2 决策树算法31-35
  • 3.3.3 基于SR决策树的指代消解35-39
  • 3.3.4 实验及结果分析39-40
  • 3.4 省略代词指代消解方法40-43
  • 3.4.1 省略代词消解问题描述40-41
  • 3.4.2 基本定义41
  • 3.4.3 省略代词指代消解模型41-43
  • 3.5 本章小结43-44
  • 第四章 基于石油领域本体的实体关系抽取44-54
  • 4.1 本体解析及字典设计44-47
  • 4.1.1 本体解析44-46
  • 4.1.2 字典设计46-47
  • 4.2 基于石油领域本体的规则构建方法47-48
  • 4.2.1 利用属性的语义特点构建抽取规则47-48
  • 4.2.2 利用三元组构建抽取规则48
  • 4.3 信息抽取器的设计48-53
  • 4.3.1 信息抽取的过程48-53
  • 4.3.2 信息抽取结果存储和用户查询53
  • 4.4 本章小结53-54
  • 第五章 POWIES的设计与实现54-67
  • 5.1 实验环境及开发工具54
  • 5.2 石油领域词库构建54-56
  • 5.3 石油领域本体参考标准56-59
  • 5.4 系统的设计59-62
  • 5.4.1 系统总体功能模块设计59-60
  • 5.4.2 系统流程60-61
  • 5.4.3 系统数据流图61-62
  • 5.4.4 系统数据库模型设计62
  • 5.5 实验与结果分析62-66
  • 5.5.1 POWIES抽取结果展示62-64
  • 5.5.2 结果分析64-66
  • 5.6 本章小结66-67
  • 结论67-68
  • 参考文献68-71
  • 发表文章目录71-72
  • 致谢72-73

【参考文献】

中国期刊全文数据库 前1条

1 王智强;李蕾;王枞;;基于决策树的汉语代词共指消解[J];北京邮电大学学报;2006年04期

中国硕士学位论文全文数据库 前1条

1 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年


  本文关键词:基于石油领域本体的Web信息抽取技术研究,由笔耕文化传播整理发布。



本文编号:379682

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/379682.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d6e6e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com