当前位置:主页 > 医学论文 > 西医药论文 >

基于词向量的流感病毒宿主预测和病毒序列鉴定

发布时间:2021-07-26 18:54
  近年来,新发突发传染病对于人类社会的威胁越来越大。随着基因组学技术,信息技术,人工智能的迅速发展,融合多个学科的生物信息学方法和技术在传染病防控领域发挥着越来越重要的作用。本文通过对自然语言和生物序列的类比,将自然语言处理中的词向量表示法应用于生物序列的特征提取和表示,继而基于生物序列的词向量表示,研究了 A型流感病毒的宿主预测以及病毒序列的鉴定。本文的主要工作如下:(1)提出了一种基于词向量的A型流感病毒宿主预测的计算方法。流感病毒不仅对人类健康造成极大威胁,而且给人类社会造成了巨大的经济损失。快速确定流感病毒的宿主将有助于评估新发突发流感病毒的潜在风险。本工作通过类比自然语言与生物序列,将自然语言处理中的词向量方法应用于A型流感病毒宿主预测。具体来说,本文采取一种简单的生物序列分词方法,将A型流感病毒的DNA序列和蛋白质序列使用自然语言处理工具word2vec表示成实值向量,进而基于这些序列的特征向量表示,构建分类模型预测A型流感病毒的禽、人、猪三类宿主。实验结果表明,该计算方法对A型流感病毒宿主预测有很好的效果,其中,建立在表面蛋白HA和NA(或它们的基因)上的模型效果要优于建立... 

【文章来源】:湖南大学湖南省 211工程院校 985工程院校 教育部直属院校

【文章页数】:94 页

【学位级别】:硕士

【部分图文】:

基于词向量的流感病毒宿主预测和病毒序列鉴定


图2.1氨基酸通式??表2.3标准基酸中英文及

过程图,过程,排列顺序,氨基酸


酸?Threonine?Thr酸?Valine?Val酸?Tryptophan?Trp酸?Tyrosine?Tyr结构上,蛋白质其实就是一条氨基酸链,氨基酸链又被成链上任意两个氨基酸之间通过肽键相连接,肽键是通过一一个氨基酸上的羧基脱水缩合形成的。蛋白质的形成过程经过脱水缩合形成一条长的多肽链,多肽链再经过盘曲折如下图2.2所示。蛋白质序列,又被成为蛋白质的一级结白质分子中的氨基酸的排列顺序,例如GIVEQCCASVCSL蛋白质序列。每一条蛋白质序列都有一个确定并且唯一的酸的排列顺序的形成服从分子生物学中心法则(见图2.3)DNA中,DNA的核苷酸的排列顺序确定转录时与其互补列顺序,而RNA的核苷酸的排列顺序确定蛋白质序列中?3〇H,0

语言模型,输出层,模型训练,神经网络


?(2.9)??输出层有|f"|个节点,U是输出层的权重,d是输出层的偏移量,W是从输入??层直接到输出层的权重,它是一个|F|x(?-l)/w的矩阵,它对应图2.4中绿色虚线??表示的从输入层到输出层直接相连的边,当没有这些直接相连的边时W是一个零??矩阵。根据作者Bengio兄Ducharme?R,Vincent?P等人在文中的阐述[38],增加从输??入层到输出层直接相连的边,可以较少模型的迭代次数,但会影响最终模型的性??能。对于输出层有:??y?=?Wx+Uz+b? ̄?Wx+U?ta.vih{Hx+d)?+?b?(2.10)??神经网络语言模型的目标是要根据词%的前n-1个词预测词?出现的概率。??20??

【参考文献】:
期刊论文
[1]感染性疾病的病理学诊断[J]. 刘德纯.  临床与实验病理学杂志. 2014(07)
[2]病毒宏基因组学在动物病毒研究中的应用及研究进展[J]. 廖勤丰,李文娟,向帮全.  湖北畜牧兽医. 2014(04)
[3]病毒宏基因组学在医学领域的应用[J]. 范胜涛,高玉伟,夏咸柱.  中国生物制品学杂志. 2014(02)
[4]新病毒鉴定的分子生物学技术[J]. 孙玉兰,李德新.  病毒学报. 2011(02)
[5]1957年流感大流行的流行病学概述[J]. 隋竑弢,杨丽梅,王伟,辛丽,董丽波,黄维娟,隗合江,徐翠玲,郭元吉,李德新,舒跃龙.  病毒学报. 2009(S1)
[6]宏基因组学及其技术的研究进展[J]. 楚雍烈,杨娥.  西安交通大学学报(医学版). 2008(06)
[7]浅析我国禽流感疫情对家禽业的影响及建议[J]. 蒋芳.  中国畜牧杂志. 2006(10)



本文编号:3304155

资料下载
论文发表

本文链接:https://www.wllwen.com/xiyixuelunwen/3304155.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8fb3d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com