基于人工神经网络的蛋白质编码区识别

发布时间：2024-02-27 11:04

　　蛋白质是生物的重要组成成分,是生命活动的主要承担者,如何从基因序列中找到编码蛋白质的区域对于我们研究生命活动至关重要。生物学中我们把编码蛋白质的基因序列叫做蛋白质编码区,不同基因在长度、含有的编码区个数、编码区的长度都存在差异性,编码区和非编码区的特征也不明确,这给我们对蛋白质编码区的识别带来很大困难。基于此本文构建了基于人工神经网络的蛋白质编码区识别模型,依赖神经网络的自组织能力自动提取已知蛋白质编码区和非编码区的特征,进而对未知基因中的编码区进行识别。本文针对蛋白质编码区识别问题构建了六种解决方案,总体可以分为两类模型:一是基于MLP、CNN、RNN三种网络结构的蛋白质编码区识别模型,二是利用模型间的差异性构建了基于投票、再学习、模型合并的蛋白质编码区识别集成模型。首先,本文构建了基于MLP的蛋白质编码区识别模型,经过理论分析和实验我们选择了具有一层隐藏层的模型结构;其次,鉴于CNN通过权值共享、池化等操作即能提取样本中的主要特征又能减少模型参数的特征,构建了具有两个卷积层和两个池化层的基于CNN的蛋白质编码区识别模型;然后,根据基因序列类似于时间序列的特征,而RNN能够很好地处理...

【文章页数】：74 页

【学位级别】：硕士

【部分图文】：

图3.3不同梯度下降算法下MLP的性能

该方法将Momentum和RMSprop这两种算法的优点进行结合，使参数的更新过程大大加快。图3.3不同梯度下降算法下MLP的性能

图3.4常见的激活函数

加了激活函数的每一层的输出结果就变得比之前模式复杂很多，进而对整个网络的表达能力上有了很大的提升。图3.4常见的激活函数如何选择合适的激活函数对我们训练好网络非常重要，图3.4给我们展示了几种常见的激活函数。每种激活都有优缺点：sigmod函数输出结果范围在(0,1)之间....

图3.6MLP的准确率、误差随隐藏层节点个数的变化

同隐藏层个数的选择一样，隐藏层节点的数目与待解决问题规模和复杂程度、输入和输出单元的个数有着直接的关系。如果隐藏层节点的个数太多，会导致模型学习时间过长，而节点数目太少则会导致模型过于简单而不能很好地提取编码区和非编码的模式。针对如何选择隐藏节点的数目这一问题至今为止尚未找到一个....

图3.7MLP的准确率、误差随着训练次数的变化

图3.7MLP的准确率、误差随着训练次数的变化常用的解决过拟合的方法有：数据集扩增、正则化、提前终止、drop-out[37]：提前终止模型训练是一种最常用也是最简单的防止过拟合的方法。该方式是在过程中发现模型出现过拟合后，便自动终止模型迭代，进而解决过拟合的方法。体做法是在....

本文编号：3912591

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3912591.html

上一篇：基于极化雷达遥感的作物生长监测研究
下一篇：机器学习中的稀疏算法和非凸优化问题研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|