当前位置:主页 > 理工论文 > 生物学论文 >

基于特征协同作用的生物数据分析方法研究

发布时间:2022-11-06 13:18
  近年来,随着计算机技术的飞速发展,生物信息学取得了长足的进步。如何从生物数据中挖掘出有用的信息,是生物信息学研究者们需要解决的问题。研究表明,从协同的角度对生物体内基因、蛋白、代谢物等特征进行研究有助于人们深入理解生物机体运行机制。本文提出了基于特征组合的随机森林算法RF-FC。该方法以特征的组合可以反映出生物体更为宏观的、系统的变化为出发点,在随机森林基决策树的分叉过程中不仅仅考察单特征的区分能力,还使用线性核支持向量机对所有特征对、特征三元组进行考察,从单特征、特征对、特征三元组中选取最佳方式进行结点的分裂。在14个公共数据集上的实验结果表明,本文提出的RF-FC算法的分类性能在大多数情况下优于随机森林。本文提出了基于Platt scaling技术和特征对得分的改进LC-k-TSP算法—LC-k-TSP-PlattCE。该方法在LC-k-TSP方法的决策阶段使用Platt scaling算法计算基分类器对未知样本的判别置信度,对每个基分类器依据对应特征对的第一得分进行加权。LC-k-TSP-PlattCE保留了LC-k-TSP的优点,采用k>0对特征的线性关系构建集成分类器,分类准... 

【文章页数】:74 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
1 绪论
    1.1 研究背景及意义
    1.2 本文主要工作
2 生物信息学数据挖掘常用技术
    2.1 数据预处理
        2.1.1 缺失值处理
        2.1.2 数据变换
    2.2 降维方法
        2.2.1 特征选择
        2.2.2 特征提取
    2.3 分类技术
        2.3.1 决策树
        2.3.2 朴素贝叶斯
        2.3.3 最近邻
        2.3.4 支持向量机
        2.3.5 随机森林
    2.4 分类器性能评估
        2.4.1 数据划分
        2.4.2 性能评价指标
    2.5 本章小结
3 基于特征组合的随机森林算法
    3.1 决策树与随机森林算法
    3.2 基于特征组合的随机森林算法RF-FC
        3.2.1 基决策树构建
        3.2.2 未知样本分类
    3.3 实验
        3.3.1 实验设置
        3.3.2 实验结果与讨论
    3.4 本章小结
4 基于Platt scaling和特征对得分的改进LC-k-TSP算法
    4.1 LC-k-TSP算法
    4.2 LC-k-TSP-PlattCE算法
        4.2.1 置信度分析
        4.2.2 特征对加权
        4.2.3 加权决策
        4.2.4 整体流程
    4.3实验
        4.3.1 实验设置
        4.3.2 实验结果与讨论
    4.4 本章小结
5 基于多组合关系的生物网络构建与模块标志物发现算法
    5.1 MCR-Net算法
        5.1.1 多种组合关系网络构建
        5.1.2 模块标志物搜索
        5.1.3 多模块信息融合策略
    5.2 实验
        5.2.1 实验设置
        5.2.2 实验结果与讨论
    5.3 RF-FC算法、LC-k-TSP-PlattCE算法、MCR-Net算法的比较
    5.4 本章小结
结论
参考文献
攻读硕士学位期间发表学术论文情况
致谢



本文编号:3703569

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/3703569.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dc855***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com