当前位置:主页 > 理工论文 > 生物学论文 >

基于广义线性模型的基因表达水平预测

发布时间:2022-01-06 20:33
  组蛋白修饰是生物体中普遍存在的一种现象,能够以不同的调控方式影响基因表达,且随着高通量测序技术的飞速发展,大量的测序数据使得探究组蛋白修饰信号与基因表达水平之间的内在联系成为可能.由于基因表达数据存在零膨胀现象,提出了一种基于广义线性模型框架的主从模型,能够以较高精度从组蛋白修饰信号预测基因表达水平.首先通过人类全基因组注释文件中的基因位点信息,筛选出包含完整基因位点信息的表达数据;其次,根据基因位点信息,定位并提取出组蛋白修饰数据中基因特定位点的特征信息,构建设计矩阵;最后结合响应变量数据零膨胀的特点,构建主从模型,以GM12878细胞系为例,与现有的多种回归算法进行对比,验证了所提模型的有效性. 

【文章来源】:大连理工大学学报. 2020,60(01)北大核心CSCD

【文章页数】:6 页

【部分图文】:

基于广义线性模型的基因表达水平预测


组蛋白修饰特征提取示意图

特征值分布,特征值分布,响应变量,蛋白


第一过程:通过响应变量值给每个样本添加标签(0或1),将响应变量值yi不为零的样本标记为正类,用1表示,响应变量值yi为零的样本标记为负类,用0表示.通过GLM对该数据集构建一个分类模型.根据之前给定的标签值,响应变量值yi服从二值分布,对于任意一个样本xi,其对应的标签值为yi,则每个基因样本是否表达的分布函数如下:

直方图,直方图


TPM值分布直方图


本文编号:3573123

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/3573123.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a277b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com