当前位置:主页 > 理工论文 > 生物学论文 >

基于de Bruijn图模型的基因组序列映射算法研究

发布时间:2023-12-02 13:01
  随着高通量测序技术的快速发展和测序成本的逐渐降低,个体基因组测序已成为研究不同物种的基因型,变异情况和相关疾病的重要手段。生物信息学为人类探索生命体活动规律,疾病产生机制与治疗提供了新思路,极大推动了分子生物学,基因组学,遗传学和医学的发展。基因组序列映射(Mapping)作为基因组数据分析的基础对变异识别(Variant Calling),基因表达量分析,选择性剪切分析和生物网络计算等研究方向有重要意义。还原测序数据在基因组上的真实位置是下游的生物信息计算的基础。然而,由于基因组上的大量重复序列和高变异区域,日益增大的测序数据量以及测序技术的局限等因素,如何准确且快速地将大量测序数据比对到参考基因组面临巨大挑战。本文围绕着基因组序列映射与序列比对为重点展开研究。本文的研究目的是通过分析现有比对方法的特性和不足之处,提出了基因组非线性的图模型组织表示方法。本文设计了基于de Bruijn图模型的基因组索引模型来有效组织和表达基因组上的大量重复片段。同时,为提高图模型的应用价值,提出针对大规模数据集的de Bruijn图模型构建算法。另外,本文实现了基于图模型的序列比对算法,达到了更高准...

【文章页数】:125 页

【学位级别】:博士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 课题背景及研究的目的和意义
        1.1.1 研究背景
        1.1.2 研究的目的和意义
    1.2 基因组序列比对的背景知识
        1.2.1 高通量测序技术
        1.2.2 参考基因组
        1.2.3 基因组序列映射
        1.2.4 变异识别
        1.2.5 基因组数据存储格式
        1.2.6 主要数据结构
    1.3 研究现状
        1.3.1 基于哈希表模型的序列比对方法
        1.3.2 基于后缀树的序列比对方法
        1.3.3 de Bruijn图模型构建方法
        1.3.4 基因组图模型
    1.4 本文的主要研究内容
第2章 基于de Bruijn图的索引模型研究
    2.1 引言
    2.2 基因组图模型特性
    2.3 基于哈希表的索引模型
        2.3.1 基于哈希表的数据存储方法
        2.3.2 基于哈希表的序列比对方法
        2.3.3 基于哈希表的索引存储方法
    2.4 基于de Bruijn图的索引模型
        2.4.1 图索引的组织结构
        2.4.2 图索引模型构建方法
        2.4.3 基于图索引的相似种子识别方法
    2.5 基因组索引模型种子获取的实验结果与分析
    2.6 本章小结
第3章 可扩展的大规模de Bruijn图模型构建算法
    3.1 引言
    3.2 可扩展的图模型构建算法
        3.2.1 基本原理与整体计算流程
        3.2.2 图模型节点排序方法
        3.2.3 图模型节点类型识别方法
        3.2.4 图模型路径排列方法
        3.2.5 图模型路径集合重构方法
        3.2.6 图模型节点筛选方法
    3.3 图模型构建方法的实验结果与分析
        3.3.1 数据集描述
        3.3.2 基因组数据集上建图结果分析
        3.3.3 测序数据集上建图结果分析
    3.4 本章小结
第4章 基于de Bruijn图模型的序列映射算法
    4.1 引言
    4.2 基于图模型的序列比对算法
        4.2.1 整体计算流程
        4.2.2 种子生成方法
        4.2.3 相同路径上的种子合并方法
        4.2.4 不同路径间的种子合并方法
        4.2.5 局部序列比对方法
    4.3 基因组序列比对实验结果与分析
        4.3.1 测序数据比对到多个基因组
        4.3.2 测序数据比对到单基因组
    4.4 本章小结
第5章 结合变异信息的序列比对算法
    5.1 引言
    5.2 结合变异信息的序列比对方法
        5.2.1 整体计算流程
        5.2.2 伪树结构基本概念与构建方法
        5.2.3 Landau-Vishkin序列比对算法
        5.2.4 基于伪树结构的序列比对算法
        5.2.5 比对结果信息重构方法
    5.3 结合变异信息的序列比对方法实验结果与分析
        5.3.1 模拟数据集上序列比对结果分析
        5.3.2 测序数据集上序列比对结果分析
        5.3.3 MHC区域上序列比对结果分析
    5.4 本章小结
结论
参考文献
攻读博士学位期间发表的论文
致谢
个人简历



本文编号:3869724

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/3869724.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户5c52a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com