基于W-GDipC和LRMR-Ri方法的抗冻蛋白预测研究

发布时间：2020-05-16 16:52

【摘要】：抗冻蛋白在多个领域都具有广阔的应用前景。随着后基因组时代的到来,各种数据库收录的蛋白质序列数据日趋完善,促进了生物信息学的发展。当前,许多研究小组致力于研究生物序列提取算法、特征选择以及分类算法的研究,并成功将其应用蛋白质结构和功能谱的分类和预测中,但在抗冻蛋白领域鲜有研究。基于此,本文主要针对抗冻蛋白的特征表达方式以及特征选择方法进行了深入的研究,并从多方面进行试验加以论证。本文的主要工作总结如下:第一,针对抗冻蛋白的特征表达。首先,本文基于所选背景抗冻蛋白序列的研究,提出了一种改进的序列特征提取方法即加权广义二肽组成(W-GDipC),该方法通过线性加权融合两种特征表达-广义二肽组成(GDipC)和二肽组成(DipC)。再次,本文还对加权融合表达式中的融合系数展开了讨论,融合系数范围在0-1之间,每次增加十个百分点。最后,本文通过五折交叉验证分别构建了具有不同特征的支持向量机(SVM)和决策树(DT)以及随机梯度下降(SGD)分类器与加权广义二肽组成(W-GDipC)特征提取方法进行对比实验论证。第二,针对抗冻蛋白的特征选择。首先,本文引入机器学习方法中四种常用的特征选择算法套索回归(Lasso),岭回归(Ridge),互信息和最大信息系数(Mic)和过滤式选择(Relief),分别对高维抗冻蛋白特征表达进行处理。其次,本文进一步提出了基于岭回归的集成特征选择(LRMR-Ri)方法。最后,本文将改进的特征选择方法与原始特征选择方法分别在抗冻蛋白数据集(二分类)上与膜蛋白数据集(多分类)使用不同的分类算法进行了实验,并基于五种评价指标通过五折交叉检验客观验证该方法的有效性。最终的实验结果表明,我们所提的加权广义二肽组成方法不仅能够保留两种单一特征的重要特性,而且又丰富了抗冻蛋白序列的特征表达。其次,本文所提的基于岭回归的集成特征选择方法能够在一定程度上避免产生局部最优或次最优特征子集,更大程度地筛除冗余特征,提炼出更有效的抗冻蛋白特征子集。
【图文】：

示意图,二肽,匹配规则,广义

图２．邋１：二肽组成与广义二肽组成匹配规则示意图逡逑其中／丨，ｒ２，ｒ３，，…，为抗冻蛋白序列，Ａ表示两个残基之间的等长间隔。逡逑广义二肽组成（ＧＤｉｐＣ）中等长间距残基对的数学表达式为：逡逑

流程图,抗冻蛋白,预测模型,流程图

时也避免了使用单一的广义二肽组成（ＧＤｉｐＣ）提取方法和二肽组成（ＤｉｐＣ）提取逡逑方法导致局部数据稀疏，从而达到使现有特征数据更具完整性和简洁性的目的［Ｍ］。逡逑具体融合实验流程如图３．邋１所示。逡逑［抗冻蛋白序列］逦逦邋逦逦逡逑、逦逦＾逦支持向虽机逦决策树逦随机悌度下降逡逑Ｔ逦逦；；逦；；逦逦逡逑ｚｕｍ逦广义二》；组成邋逦？！逦分类逡逑Ｉ逦＾逦１逡逑加权广义二ＡＦＰ逦Ｎｏｎ－ＡＦＰ逡逑１逦邋＾—邋邋＾邋＾逡逑图３．１：抗冻蛋白（ＡＦＰ）预测模型构建流程图逡逑２０逡逑
【学位授予单位】：云南大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：Q51

【参考文献】