当前位置:主页 > 科技论文 > 自动化论文 >

基于卷积神经网络和多种序列编码模式的N6-甲基腺嘌呤位点预测研究

发布时间:2023-02-05 14:58
  N6-甲基腺嘌呤(m6A)是指在氮-6位的腺苷核苷酸的甲基化修饰,它在一系列生物过程中起重要作用,如剪接,mRNA传输,mRNA合成和翻译过程等。随着m6A位点高分辨率数据集的建立,很多研究方法已经可以成功预测序列中的m6A位点。然而传统实验方法识别m6A位点耗时且成本很高,并且用于鉴定N6-甲基腺嘌呤位点的许多常规计算方法受数据规模的限制。利用通过高通量测序方法,多种物种的百万级m6A位点数据库得以建立,给了我们一个构建利用大规模数据驱动为优势的深度学习方法预测模型的机会。本文主要研究内容包括:(1)介绍了两个我们在识别m6a位点方面的前期研究工作,提出了基于多间隔核苷酸对位置特异性和支持向量机的机器学习预测模型和基于深度信念网络提取高层次序列特征表示并与传统特征结合识别m6a位点的预测模型。(2)引入四种RNA序列编码模式。本文分别提出四种序列表示的方法,包括one-hot编码和基于邻近位点状态编码的特征,Embedding词嵌入编码的特征和利用NLP词嵌入模型对基因序列进行迁移学习,将RNA序列分割成伪单词以学习向量空间的特征表示。(3)通过4种具有不同超参数和网络结构的一维CN... 

【文章页数】:68 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状以及存在的问题
        1.2.1 国内外研究现状
        1.2.2 存在的问题
    1.3 本文主要工作
        1.3.1 文本研究内容
        1.3.2 本文章节结构
第2章 关键技术综述
    2.1 表观遗传学研究
    2.2 高通量基因芯片技术
        2.2.1 基因芯片技术原理
        2.2.2 基因分析工具:
        2.2.3 基因芯片数据统计分析
    2.3 卷积神经网络
        2.3.1 卷积操作
        2.3.2 池化层
        2.3.3 ReLU
        2.3.4 Dropout
    2.4 语言模型
        2.4.1 n-gram语言模型
        2.4.2 神经网络语言模型
        2.4.3 循环神经网络语言模型
第3章 两个前期的相关研究工作
    3.1 前期工作使用的51 窗口长度的数据集
    3.2 基于多间隔核苷酸对位置特异性和支持向量机的工作
        3.2.1 多间隔核苷酸对位置特异性特征的提取
        3.2.2 对特征的降维和优化
        3.2.3 支持向量机分类预测
    3.3 基于深度信念网络的前期工作
        3.3.1 限制玻尔兹曼机
        3.3.2 深度信念网络
        3.3.3 网络参数优化
        3.3.4 核苷酸组成特性分析
        3.3.5 抽象特性有效性分析和实验对比
第4章 重编译数据集的准备及特征构建
    4.1 重编译数据集与数据预处理
        4.1.1 重编译1001 窗口长度数据集
    4.2 序列编码与特征提取
        4.2.1 One-hot特征
        4.2.2 Neighbor Site特征
        4.2.3 Embedding特征
        4.2.4 Gene2vec特征
第5章 网络结构与参数优化
    5.1 网络结构
    5.2 参数优化
第6章 实验结果评估与展示
    6.1 实验结果对比
    6.2 卷积核基于现有motif的比对
    6.3 在线预测平台的构建
        6.3.1 预测提交
        6.3.2 数据集和补充文档获取
        6.3.3 Motif匹配结果展示
第7章 总结与展望
    7.1 本文工作总结
    7.2 未来工作展望
参考文献
发表论文和参加科研情况说明
致谢



本文编号:3735176

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3735176.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户59fb3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com