当前位置:主页 > 科技论文 > 自动化论文 >

基于支持向量机的蛋白质序列信息提取及亚细胞定位研究

发布时间:2024-02-04 07:02
  随着大数据时代与后基因时代的到来,海量功能未知、结构复杂的蛋白质序列信息涌入生物数据库。探索这些蛋白质序列的相关信息己成为信息学与生物学的热门研究方向。蛋白质在生物体中发挥的功能与其所处的亚细胞位置具有非常密切的关联性,所以,对蛋白质亚细胞的定位预测进行研究已成为生物信息学的重点内容。在这样的背景下,随着“互联网+”的推进,传统的生物实验方法早己无法满足现代研究的需求,以机器学习算法为代表的信息提取与处理方法及智能定位预测发挥了不可替代的作用。本论文利用机器学习算法研究蛋白质亚细胞的定位,结合所学专业中信息处理部分的相关知识,论文主要针对信息特征的提取算法和分类预测模型两个方面的内容进行了研究:(1)在现有方法的基础上,本文提出了一种改进型的伪氨基酸组成方法:新增加了9种特征来表达蛋白质序列,重新构造了特征表达模型。在对序列信息进行特征提取时,基于多特征融合的思想,结合自相关系数、熵密度法和所提新方法构成一种新的蛋白质特征向量表达模型,更进一步丰富了序列信息的表达。选择机器学习中泛化能力较强的支持向量机作为分类器,最终采用留一法在Gram-positive和Gram-negative两...

【文章页数】:71 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 论文研究内容与结构安排
第二章 蛋白质亚细胞定位研究的理论基础
    2.1 引言
    2.2 常用蛋白质数据库介绍
    2.3 序列特征信息提取的基本方法
        2.3.1 氨基酸组分
        2.3.2 伪氨基酸组分
    2.4 分类预测算法
        2.4.1 K近邻算法
        2.4.2 支持向量机与LIBSVM
    2.5 预测性能评估和评价指标
第三章 基于改进型PseAAC与特征融合的序列信息提取及亚细胞定位
    3.1 引言
    3.2 数据集的选取
    3.3 构建蛋白质序列信息特征表达模型
        3.3.1 信息数据处理
        3.3.2 自相关系数
        3.3.3 熵密度
        3.3.4 改进型伪氨基酸组成模型
        3.3.5 多信息融合特征表达模型
    3.4 降维算法
    3.5 实验结果与分析
    3.6 小结
第四章 基于PsePSSM与三肽组成的多位点亚细胞定位研究
    4.1 引言
    4.2 数据集的选取
    4.3 多位点蛋白特征提取模型
        4.3.1 伪位置特异性得分矩阵PsePSSM
        4.3.2 三肽组成
        4.3.3 多特征融合
    4.4 多标签集成分类器
    4.5 基于集成分类器的序列信息特征模型构建
    4.6 实验结果与分析
        4.6.1 评价指标
        4.6.2 特征提取方法实验结果对比分析
        4.6.3 分类器性能实验结果对比分析
    4.7 小结
第五章 全文总结与展望
    5.1 工作总结
    5.2 研究展望
参考文献
攻读硕士学位期间完成的科研成果
致谢



本文编号:3895413

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3895413.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户28347***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com