当前位置:主页 > 理工论文 > 生物学论文 >

转录组测序数据与DNA序列结构的几种差异分析方法

发布时间:2024-04-20 07:17
  基因是带有遗传信息的DNA序列。随着测序技术的发展,基因测序渐渐揭开了生物学的众多奥秘。基因表达反映了细胞的进化过程,同时,伴随着转录组测序技术和单细胞测序技术的出现,基因数据与结构的多样性与差异性逐渐显现出来。然而,由于基因数据的数据量庞大,基因结构的复杂程度高,如何对基因数据与结构进行准确分析面临着巨大的挑战,如何筛选出疾病数据的致病基因具有显著意义。本文主要致力于进行转录组测序数据、单细胞时间序列测序数据的基因差异表达分析以及DNA序列结构的差异分析的研究,本文主要的研究内容如下:第一,针对转录组测序数据,鉴于当前方法不适用于对多组样本数据进行基因差异表达分析,利用信息熵理论,构造了用于识别差异表达基因的差异类熵函数,研究了基于差异类熵函数识别差异表达基因的方法(DEF:Differential Entropy-Like Function)。首先,与DESeq2、edgeR、baySeq和limma等传统方法相比,DEF方法可以应用于多组样本的数据集,应用范围更为广泛。其次,DEF方法与传统方法具有一样的功能,可以用于两组样本数据的基因差异表达分析,由于DEF方法适用于零表达量较...

【文章页数】:106 页

【学位级别】:博士

【部分图文】:

图1-2非标准化及其他三种标准化方法的箱线图

图1-2非标准化及其他三种标准化方法的箱线图

哈尔滨工业大学理学博士学位论文行一定的变换,然后对数据进行对数运算,消除异常值,使数据符合假设条件的分布。2014年,Risso[25]等人提出了RUVseq标准化方法,此方法是基于spike-in控制和经验控制因子的标准化方法,图1-2a)展示了实验数据集未进行....


图2-6前100个差异表达基因的箱线图

图2-6前100个差异表达基因的箱线图

故差异类熵函数H(p1,p2,···,pn)≤1.证毕。根据上述性质,对于每个基因,均计算其差异类熵函数值,基因在不同样本中的差异表达程度可以用差异类熵函数值来度量。差异类熵函数值越大,基因的差异表达程度越高;差异类熵函数值越小,基因的差异表达程度越低。例如基因i....


图2-7“Sultan”数据集中五种基因差异表达分析方法实验结果交叠情况文恩图

图2-7“Sultan”数据集中五种基因差异表达分析方法实验结果交叠情况文恩图

哈尔滨工业大学理学博士学位论文异表达程度越高。针对“Sultan”数据集,实验结果如图2-7所示,图2-7a)中,差异表达基因的DEF值均大于0.05,DEF检测出的差异表达基因中,792个基因也同时被其他方法所检测。若考察DEF值大于0.01的差异表....


图2-8“Katz”数据集中五种基因差异表达分析方法实验结果交叠情况文恩图

图2-8“Katz”数据集中五种基因差异表达分析方法实验结果交叠情况文恩图

表2-3中列出了仅被DEF检测到的差异表达基因中,具有最小DEF值的五个基因的原始读段数,某些基因例如“ENSG00000065357”在组A的样本2中有较高的读段计数值10,则该基因可视为真阳性的差异表达基因,而其他基因在两组样本中有相似的读段计数,在样本....



本文编号:3959070

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/3959070.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户20482***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]