基于特征融合和二维小波去噪的蛋白质结构类预测

发布时间：2020-05-05 14:49

【摘要】：蛋白质的空间结构决定着其功能,其空间结构的确定非常复杂。通过前人的研究表明获得蛋白质的结构类,可以确定肽链的折叠形态,从而缩小空间结构自然搜索的范围,为其结构测定提供了方向,节省了许多时间和物力。但结构类的预测准确率一直很低,特别是在低相似性序列数据集上。导致其预测率低的原因在于用传统的方法所提取结构类序列的特征信息中有很多冗余信息。基于此,本文的工作如下:(1)提出了一种基于降维的特征融合和迭代二维小波去噪的预测模型,称之为FU-ERD-IWD(Model 1)。它用来解决在蛋白质结构类预测过程中,高维特征向量融合后计算成本和冗余信息增加的问题。首先用二肽组成和三肽组成提取结构类序列的特征信息,然后用核主成分分析(KPCA)对其降维,将降维之后的特征向量进行融合。之后对融合的特征向量进行二维小波去噪,通过多次迭代去噪,去除特征向量里的冗余信息。虽然本预测模型的预测效果与其他文献有差距,但所取得的预测效果还是行之有效的。(2)提出了一种基于并行二维小波去噪和特征融合的预测模型,称之为PWD-FU-PseAAC(Model 2)。在蛋白质结构类预测过程中提出一种新的融合策略:先去噪后融合,来增强低维特征向量的有效性,使之更容易预测和识别。首先通过两种类型的伪氨基酸组成提取结构类序列的特征信息,然后对这两部分特征向量进行二维小波去噪,去除冗余信息。其次将去噪后的两部分特征向量进行融合。相比另一种融合策略:先融合后去噪,本文所提新的融合策略要更好。并与其他文献中的预测方法相比较,本预测模型的预测准确率更高,而且本预测模型有望应用于生物信息学其他领域。
【图文】：

示意图,近邻分类,示意图,类别

其他距离高效简单。对相似度由小到大的顺序排列，选择前Ｋ个，将其中出现次逡逑数最多的类别作为待分类样本的类别。虽然Ｋ近邻简单，但是其泛化错误率不高，逡逑有时能达到令人满意的预测效果。图２．邋１是Ｋ近邻分类示意图。逡逑0逦°逡逑？逦Ｇ逡逑＾邋：邋？逡逑：0逡逑：逦★逦°ｉ逡逑°匕…ａ…Ｊ邋？逡逑Ｌ邋0邋°邋Ｊ逡逑图２．１邋Ｋ近邻分类示意图逡逑图２．１中蓝色的星星代表待分类样本，圆圈代表训练样本，不同颜色的圆圈逡逑代表不同类别，其中有四个类别。如果以虚线框内的５个点作为邻居，则待分类逡逑样本将被归类为粉色圆圈所属类别，而如果以实线框内的１３个点作为邻居，则待逡逑分类样本被归类为黄色圆圈所属类别。逡逑２．邋４．评估方法与性能度置逡逑一个模型性能的好坏需要一些验证方法和相应的性能指标来定量的评估。常逡逑用的验证方法有：独立集检验（ｉｎｄｅｐｅｎｄｅｎｔ邋ｄａｔａｓｅｔ邋ｔｅｓｔ）、自助法（ｂｏｏｔｓｔｒａｐｐｉｎｇ）逡逑１６逡逑

流程框图,二维小波,去噪,流程框图

图３．邋１二维小波去噪流程框图逡逑小波去噪的关键是阈值的确定和阈值函数的选取，它们影响着最终的去果。通常情况下，有三种方法可以确定阈值，分别是默认阈值、给定阈值和强阈值。在本文中我们选择默认阈值的方式来确定阈值，因为它的方便和简明。一般来说，有两种常用的阈值函数，分别是软阈值函数和硬阈值函数。本文选前者来作用信号，因为前者比起后者，前者可以使重构的信号更光滑。逡逑３．１．３．预测模型的构建逡逑在本章我们提出了一种基于降维的特征融合和迭代二维小波去噪的预测型，称之为ＦＵ－ＥＲＤ－１ＷＤ邋（Ｍｏｄｅｌｌ）。把２５ＰＤＢ数据集作为研究对象，首先蛋白质序列进行特征提取，通过二肽组成和三肽组成，，可以得到４００维和８００
【学位授予单位】：云南大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：Q51;O212.1

【参考文献】