当前位置:主页 > 科技论文 > 软件论文 >

单体型分析的算法研究

发布时间:2024-02-03 05:51
  单体型是染色单体上一组紧密连锁的位点,通常会共同遗传给后代,可以视作多个位点组成的“超级等位基因”。单体型信息在全基因组关联分析,连锁分析,遗传表现,流行病学,群体遗传学中都有重要的作用。大部分生物,包括人类都是二倍体,常规的新一代测序技术只能获得两条单体型复合得到的基因型序列信息,而每条染色体上各自的序列信息(又称为相型信息)无法被直接观测。此外,将来自不同个体DNA混合测序的混合基因池设计方法,由于具有成本低廉等优点,也被广泛应用在全基因组关联分析(GWAS)的第一阶段中。因此,如何从不完全的基因型数据,或是混合基因型数据中,重建个体的相型信息,推断出群体中真实存在的单体型以及估计对应的频率,是基因组学研究中的基础问题,已经得到了广泛关注。本文梳理了文献中单体型分析的主要算法框架发展历史,并且提出了基于压缩感知的单体型频率估计算法CSHAP以及用于分型的基于近似溯祖先验的广义EM算法(GEM)。大量模拟研究表明,CSHAP算法在单体型频率估计问题上有优秀的表现和极高的计算效率。我们的算法支持个体设计和混合设计,并且无论当哈代-温伯格平衡定律成立与否均可以给出稳健估计。从模拟试验的表...

【文章页数】:118 页

【学位级别】:博士

【部分图文】:

图1.1?SRA数据库测序总量的增长??注:数据来源于?NCBI?(https://trace.ncbi.nlm.nih.gov/Traces/sra/)

图1.1?SRA数据库测序总量的增长??注:数据来源于?NCBI?(https://trace.ncbi.nlm.nih.gov/Traces/sra/)

万对喊基对(base?pair,bp)和606条DNA序列,随后以每18个月翻一番的速??度持续指数增长(Benson?etal.,2009),截止2019年2月,己经收录了超过3000??亿对bp和2亿条DNA序列。图1.1展示了美国国家生物技术信息中心(NCBI)??中SRA....


图3.3混合池设计下,PoooL,?AEM和CSHAP算法对AGT频率估计的精度??注:r代表样本量(混合基因池的个数),n代表池的容量(每个基因池内的个体??数)

图3.3混合池设计下,PoooL,?AEM和CSHAP算法对AGT频率估计的精度??注:r代表样本量(混合基因池的个数),n代表池的容量(每个基因池内的个体??数)

杂合位点数最高达到了?37,并且各自的相型由Rieder?et?al.?(1999)中的Figure?2给??出。在假设HWE成立的条件下,我们分别生成了:T?=?50,100,2〇0,?5〇0,1000,2000??个体,并且测试了?3.3.1节中的所有方法,重复试验的平均精度....


图4.3存在不同程度的缺失时,PHASE,?fastPHASE,CSHAP,?Shape-IT和PL-EM算法对??AGT频率估计的精度??注:样本量r?=?100,缺失率a从5%到30%不等

图4.3存在不同程度的缺失时,PHASE,?fastPHASE,CSHAP,?Shape-IT和PL-EM算法对??AGT频率估计的精度??注:样本量r?=?100,缺失率a从5%到30%不等

CSHAP算法的各项误差比PHASE还要低。这充分体现了?CSHAP算法对于缺失??数据的稳健性。??对于G6PD数据,不同算法的结果汇总于图4.4。可见,当数据存在缺失时,??PL-EM精度估计的表现较差。同时注意到Shape-IT错误的估计了更多不存在的??单体型,导致了较高....


图5.1隐马尔可夫模型方法示意图(Lo,?2011),??注:这个例子中,有g?=?4个位点上的JV?=?4条模板单体型(蓝圈)

图5.1隐马尔可夫模型方法示意图(Lo,?2011),??注:这个例子中,有g?=?4个位点上的JV?=?4条模板单体型(蓝圈)

第一条单体型是第20个模板单体型;!2Q,第二条单体型则是第100个模板单体??型九100。??图5.1是隐马尔可夫模型方法的一个示意图,图中有g?=?4个位点上的N?=?4??条模板单体型,红色箭头代表隐藏的状态转移序列,虚线代表观测到的基因型。??i?i?i?i??i?i?i....



本文编号:3893831

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3893831.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户c98e8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com