基于机器学习算法的基因表达数据处理与分析

发布时间：2024-02-03 08:53

　　随着基因微阵列技术的发展,人们对于基因表达谱数据的研究逐渐成为了生物信息学的研究热点。这些研究为我们认识和理解生命现象提供了全新的思路与方式。而近年来,机器学习凭借其在模式识别与数据挖掘领域的出色表现,受到了生物信息学研究者的广泛关注。目前,基因表达谱数据分析已被广泛应用于疾病的预测、诊断和靶向治疗。本文利用机器学习算法,针对基因表达谱数据分析中常见的:缺失值填补,基因活动状态聚类,肿瘤样本分类等问题提出了较为有效的解决方案,并通过在不同数据集上的多次实验证明了方案的优异性能。具体地,本文主要的研究内容如下:(1)在实际的基因微阵列实验中,各种主观和客观因素通常会导致实验产生的基因表达谱数据中存在或多或少的缺失值。本文提出了一种基于集成学习思想的方法,集成了几种传统的缺失值填补算法(如:K-近邻填补,最小二乘法填补等),对数据集中的缺失值进行填补,得到了较准确的填补结果。(2)为了根据基因表达谱数据分析基因的功能以及基因在不同条件下的表达情况,研究者通常将基因表达谱数据进行聚类分析。本文提出了一种基于概率模型的基因活动状态聚类方法,该模型结合K-均值聚类与高斯混合模型对数据的分布进行描...

【文章页数】：68 页

【学位级别】：硕士

【部分图文】：

图2-2集成填补算法的基本框架

第2章基因表达数据缺失值填补131,2,,，其中()是已知列位置集合的第个采样集。这里，采用自助采样（BootStrap）来生成()。在这种采样方式中，可以将随机性引入构建组件预测器的过程中，这有利于减少它们对于数据的依赖性。3)对于第个填补方法，使用样本矩阵(,)中的数据为基因....

图2-3.TCGA数据集上不同方法在不同缺失率下产生结果的均方根误差

第2章基因表达数据缺失值填补19设置为5％，并执行Bootstrap采样T=30次。另外，用于对比的缺失值填补方法KNNimpute和SVDimpute的参数采用[23]中建议的最优值。也就是说，KNNimpute采用的最近邻数量P=15，并且SVDimpute所选择的特征向量的....

图2-4.TCGA数据集上不同方法在不同样本数量下产生结果的均方根误差接下来，我们针对不同的样本数量评估各算法的填补性能

天津大学硕士学位论文

图2-5.TCGA数据集上不同方法在不同方差的噪声下产生结果的均方根误差

第2章基因表达数据缺失值填补21过组合多个独立的填补方法来提高对噪声的鲁棒性图2-5.TCGA数据集上不同方法在不同方差的噪声下产生结果的均方根误差2.4.3在其他数据集上的测试结果我们还在来自癌症基因组图谱数据库（TCGA;http：//firebrowse.org/）的数据矩....

本文编号：3894038

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3894038.html

上一篇：基于粒子群算法和速度障碍法的无人机避险方法研究
下一篇：基于对抗式网络的图像数据生成技术研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|