当前位置:主页 > 医学论文 > 生物医学论文 >

基于组合学习和自训练的生物医学事件抽取研究

发布时间:2017-06-09 04:06

  本文关键词:基于组合学习和自训练的生物医学事件抽取研究,,由笔耕文化传播整理发布。


【摘要】:生物医学文献数量的急剧增加,使得生物医学从业者在海量生物医学文献中快速地获取大量的感兴趣的信息变得困难。因此,快速有效地从海量无结构化的文本中抽取出便于管理、查询的结构化信息成为生物医学信息抽取的热点的研究课题。生物医学事件抽取属于生物医学信息抽取的范畴,旨在从分子层面在无结构化的文本信息中抽取出有蛋白质有关的结构化生物事件信息。 在生物医学事件抽取的研究中,机器学习的方法得到了广泛的应用。本文在研究过程中主要利用了机器学习的方法对生物医学事件进行抽取,涉及到组合学习,模型自训练以及核方法的机器学习方法。在事件的处理流程上采用了常用的文本预处理、事件触发词检测、事件元素识别以及整体后处理的步骤。本文在生物医学事件触发词检测的阶段采用了基于不同决策规则的学习器进行组合学习、使用模型自训练的方法在触发词检测阶段引入了未标注语料实现半监督学习。在触发词的检测过程中,采用了建立触发词字典来判断文档中词是否为候选触发词,对所选候选触发词进行特征提取进行分类任务,确定候选词是否为触发词并指定相应的触发词类型。在事件元素检测的阶段,构造触发词和蛋白质关系对,借鉴蛋白质交互关系抽取的方法对触发词蛋白质对之间的关系进行检测。根据事件的定义类型将事件分为简单事件和复杂事件分别进行元素的检测。在简单事件中直接鉴定触发词蛋白质的关系,在复杂事件中采用了先鉴定是否存在关系再鉴定存在哪一种关系的方法。最终采用核函数的方法对触发词蛋白质对进行关系检测,来确定事件的元素。 本文是在BioNLP'09和BioNLP' ll共享任务提供的公开的语料集上进行训练和测试的,同时实验过程中采用的未标注语料来源于PubMed中的摘要文档。利用本文的方法在采用的语料集上进行模型建立和验证,结果表明本文采用的方法对事件抽取系统的性能有所改善,取得了不错的抽取效果。
【关键词】:生物医学 事件抽取 组合学习 自训练 核方法
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:R318;TP18
【目录】:
  • 摘要4-5
  • Abstract5-7
  • 目录7-9
  • 1 绪论9-13
  • 1.1 研究背景9-10
  • 1.2 研究现状10-11
  • 1.3 本文的工作11-12
  • 1.4 本文的结构12-13
  • 2 生物医学事件抽取相关技术13-26
  • 2.1 信息抽取技术与文本挖掘相关知识13-15
  • 2.1.1 文本挖掘13-14
  • 2.1.2 信息抽取14-15
  • 2.2 生物医学事件抽取15-17
  • 2.3 句法分析17-19
  • 2.4 相关机器学习方法19-23
  • 2.4.1 支持向量机19-22
  • 2.4.2 随机森林22-23
  • 2.5 评价指标和语料23-26
  • 2.5.1 评价指标23-24
  • 2.5.2 语料24-26
  • 3 组合学习器的生物医学事件触发词检测26-36
  • 3.1 语料预处理27-28
  • 3.2 特征提取28-31
  • 3.2.1 上下文特征28-29
  • 3.2.2 语义特征29-31
  • 3.5 实验过程及结果分析31-36
  • 3.5.1 实验过程31-32
  • 3.5.2 实验结果分析32-35
  • 3.5.3 小结35-36
  • 4 自训练和核方法的生物医学事件抽取36-46
  • 4.1 基于自训练的触发词检测过程37-42
  • 4.1.1 半监督方法和自训练学习37-38
  • 4.1.2 未标注语料38-39
  • 4.1.3 自训练方法算法及实验步骤39-40
  • 4.1.4 实验结果及分析40-42
  • 4.2 基于核方法的事件元素检测42-46
  • 4.2.1 图核42
  • 4.2.2 实验方法42-44
  • 4.2.3 事件后处理44
  • 4.2.4 实验结果及分析44-46
  • 结论46-48
  • 参考文献48-52
  • 攻读硕士学位期间发表学术论文情况52-53
  • 致谢53-54

【共引文献】

中国期刊全文数据库 前10条

1 刘剑武;朱映映;宋娜;;融合音频特征的比赛场地主颜色聚类算法[J];莆田学院学报;2010年05期

2 蒲筱哥;;自动文本分类方法研究述评[J];情报科学;2008年03期

3 殷天石;孙济庆;;基于树型结构的SVM多类组合分类器在文本分类中的应用[J];情报杂志;2006年02期

4 赵中英;梁永全;纪淑娟;李超;;文本分类中改进的特征加权方法[J];情报杂志;2009年04期

5 许君宁;董萍;刘怀亮;;基于知网的中文事件抽取研究[J];情报杂志;2009年S2期

6 谢玲;屈锡华;贺昌政;肖进;;区域创新能力综合集成评价研究[J];情报杂志;2010年09期

7 滕青青;吉久明;郑荣廷;李楠;;基于文献的中文命名实体识别算法适用性分析研究[J];情报杂志;2010年09期

8 叶君香;徐高欢;;基于SVM和噪声分析的汽车发动机故障快速诊断方法研究[J];汽车零部件;2012年05期

9 李玉景;赵志刚;郭振波;;一种新型的增式SVM训练算法[J];青岛大学学报(工程技术版);2007年03期

10 王兴玲,李占斌;基于网格搜索的支持向量机核函数参数的确定[J];中国海洋大学学报(自然科学版);2005年05期

中国重要会议论文全文数据库 前10条

1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年

2 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年

3 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年

4 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年

5 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年

6 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年

7 常俊林;魏巍;梁君燕;;基于支持向量机的SURF改进算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年

8 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中国自动化学会控制理论专业委员会D卷[C];2011年

9 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年

10 贾少春;胡秀珍;;A Method of Predicting theβ-hairpin Motifs in Proteins[A];第四届全国生物信息学与系统生物学学术大会论文集[C];2010年

中国博士学位论文全文数据库 前10条

1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年

2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年

3 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年

4 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年

5 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年

6 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年

7 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年

8 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年

9 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年

10 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年

中国硕士学位论文全文数据库 前10条

1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年

2 马冉冉;集成学习算法研究[D];山东科技大学;2010年

3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年

4 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年

5 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年

6 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年

7 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年

8 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年

9 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年

10 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年


  本文关键词:基于组合学习和自训练的生物医学事件抽取研究,由笔耕文化传播整理发布。



本文编号:434389

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/swyx/434389.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d0907***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com