当前位置:主页 > 科技论文 > 自动化论文 >

基于DNA序列的无损压缩算法研究

发布时间:2023-02-26 04:52
  随着信息技术的发展,越来越多的数据被人们所记录用于开展各种工作与活动。在生物信息领域,DNA作为生物体内储存着大量生物遗传信息的遗传物质,对生物生命机能产生了重要的作用。在DNA测序技术和其他各类测序技术的影响下,DNA序列数据也急速增长,数据量增长速度呈指数方式。如何利用有限的储存空间,有效地保存大量有研究作用的DNA序列数据,是现今DNA研究相关领域学者所面临的新课题。然而,传统的数据压缩算法对DNA序列的压缩结果并不理想,甚至可能导致存储空间膨胀。DNA序列内部特殊的重复结构,如直接重复,镜像重复,互补回文等,以及不同物种或相同物种不同个体DNA序列间的高度重复性,使得DNA序列的结构化压缩成为可能。本文主要研究如何利用更有效的压缩方法以减少数据的存储空间。针对有参考序列的DNA序列压缩,本文结合字典编码与统计编码的优势,提出了一种有效的DNA序列压缩方法——基于全文索引的互补上下文压缩算法。在压缩第一阶段,该方法利用高效索引结构FM-index查找并定位参考序列中的最长匹配序列,由于FM-index结构通常用于固定长度图案匹配,不利于对实际序列的匹配和记录信息,改进后的FM-i...

【文章页数】:76 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究目的和意义
    1.2 数据压缩技术
        1.2.1 无损数据压缩
        1.2.2 有损数据压缩
    1.3 神经网络研究背景
    1.4 本文主要贡献与章节安排
第二章 DNA序列压缩相关工作
    2.1 DNA序列压缩算法概况
        2.1.1 无参考序列的压缩算法概况
        2.1.2 有参考序列的压缩算法概况
    2.2 DNA序列特性
        2.2.1 DNA数据统计分析
        2.2.2 序列相似性的计算
    2.3 DNA压缩技术评价
    2.4 DNA压缩常用实验序列
    2.5 本章小结
第三章 基于全文索引的互补上下文压缩模型
    3.1 FM-index全文索引及其相关概念
        3.1.1 Burrows-Wheeler变换
        3.1.2 后缀数组SA
        3.1.3 FM-index算法
    3.2 混合上下文模型
        3.2.1 上下文模型
        3.2.2 上下文模型的合成
    3.3 基于全文索引的互补上下文压缩算法研究
        3.3.1 方法概述
        3.3.2 FM-index变长搜索
    3.4 实验结果与分析
    3.5 本章小结
第四章 基于自编码器的序列预测与压缩模型
    4.1 相关工作
        4.1.1 人工神经网络
        4.1.2 自编码器
    4.2 基于自编码器的序列预测和压缩模型
        4.2.1 卷积自编码器网络
    4.3 实验过程与结果分析
        4.3.1 序列预处理
        4.3.2 网络模型评估与选择
        4.3.3 残差编码
        4.3.4 网络参数选择与讨论
        4.3.5 序列压缩结果与分析
    4.4 本章小结
第五章 总结与展望
    5.1 全文总结
    5.2 未来工作展望
参考文献
致谢
攻读学位期间发表的学术论文
攻读学位期间参与的项目



本文编号:3749856

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3749856.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4bd42***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com