基于生成对抗网络与群智能优化的基因选择方法研究

发布时间：2021-12-30 14:55

　　癌症已经成为威胁人类生命健康的主要疾病之一,高效的基因选择方法可以有效识别和分析基因表达谱中的致病基因,为癌症的预防和治疗提供重要的参考。基因表达谱具有高维度、小样本的特点,一般的基因选择方法在一定程度上可以缓解维度过高带来的压力,但样本数量的匮乏仍然导致大部分的基因选择方法效果不佳,目前的研究方法主要集中于降维算法的改进,对于样本量方面的研究缺乏关注。针对上述问题,本文利用基于生成对抗网络（GAN）与群智能算法（SI）结合的方法进行基因选择,该方法通过生成样本提高基因表达谱数据集的样本量,并通过群智能算法优秀的搜索性能获取更优的基因子集,为基因表达谱数据的研究工作提供了一种新的思路。本文的主要工作如下:（1）针对传统基因选择方法的缺陷,本文提出基于条件约束的生成对抗网络与二进制粒子群优化（BPSO）的基因选择方法（y-CGAN-BPSO-ELM）。该方法针对基因表达谱数据的特点,首先利用CGAN模型进行样本生成,同时在判别器模型中加入对条件变量y的约束项,提高生成样本的真实性与多样性,最后对样本增加后的数据集以BPSO算法进行基因选择,以超限学习机（ELM）的分类结果指导选择过程。在...

【文章来源】：江苏大学江苏省

【文章页数】：94 页

【学位级别】：硕士

【部分图文】：

VAE-Binaryclassifier生成模型

原理图,原理,样本,似然函数

江苏大学硕士学位论文15生成对抗网络的结构即基于图2.1的生成模型。GAN的网络结构包含两个部分：（1）生成器G（Generator）；（2）判别器D（Discriminator）。其工作过程基于博弈论中的零和博弈，如图2.2所示，生成器G与判别器D的之间的对抗博弈会迫使生成器生成更加真实的人造样本，生成器G根据输入的向量生成样本，判别器的输入值为训练集中的真实样本与G生成的伪样本，计算得出网络的输入值为真实样本的概率。在生成器G与判别器D相互对抗与进化的过程中，GAN完美地解决了以下这一问题：如何根据已知存在的一定量的样本，训练出一个能够生成近乎完全相同的样本数据的神经网络模型，这使得GAN在小样本数据分析领域，如人脸识别、图像生成、医学数据生成等方向上的应用发展迅速。图2.2GAN的工作原理GAN的基本原理在于根据已知样本分布为xPdata求基于未知参数θ的分布xP;G的极大似然估计。假设从真实分布xPdata中选择M个样本，其同样存在于生成分布xP;G中的概率即为似然函数L：miiGLxP1);(（2.1）当存在θ使似然函数最大时，真实样本在生成分布中存在的最多，即代表GP越接近于dataP。对以θ为参数的似然函数（2.1）进行推导可知公式（2.2）。

原理图,原理,样本,基因

基于生成对抗网络与群智能优化的基因选择方法研究28但是可能与研究目标无关。基因表达谱数据的研究具有高度的专一性，即对同一亚型的肿瘤基因进行特征选择，因此，高度自由的样本生成方式并不适合此类数据集的研究工作。CGAN在无监督学习的基础上，对生成样本添加标签，使生成样本的分布近似于真实分布，同时针对某一亚型的肿瘤的表达进行特定的基因生成。CGAN与一般的监督学习方法不同，传统的监督学习加入标签以后，其生成样本仍然没有一个判定的依据，自由度依然很高，例如定义基因表达谱中的Brain（脑癌）最高相关性为1，当条件变量y1加入模型中，则生成的足够真实的样本数据中一定会带有脑癌相关基因，但这个基因可能与人类的脑癌有关，也可能与其他物种的脑癌有关，同时可能包含有多个脑癌的基因同时存在于同一样本之中，对于基因选择而言，这样的样本反而无助于提高其分类精度。CGAN的解决方法即在于将条件变量和生成样本同时放入判别器D中进行判断，其工作原理如图3.1所述。图3.1CGAN工作原理CGAN算法的具体流程如算法3.1所示。算法3.1CGAN博弈进化算法输入：真实样本数据集dataP，初始随机分布zP,条件变量iy;生成器G参数θg，判别器D参数θd，最大迭代次数Iter，当前迭代次数t。

【参考文献】：
期刊论文
[1]基于混合群智能算法优化BP神经网络的粮食产量预测[J]. 庄星,韩飞.  江苏大学学报(自然科学版). 2019(02)
[2]高维小样本分类问题中特征选择研究综述[J]. 王翔,胡学钢.  计算机应用. 2017(09)
[3]Cancer statistics: updated cancer burden in China[J]. Wanqing Chen.  Chinese Journal of Cancer Research. 2015(01)
[4]群智能算法的理论及应用综述[J]. 王水花,张煜东,吉根林.  南京师范大学学报(工程技术版). 2014(04)
[5]人工蜂群算法研究综述[J]. 秦全德,程适,李丽,史玉回.  智能系统学报. 2014(02)
[6]基于虚拟样本扩张法的单样本人脸识别算法研究[J]. 单桂军.  科学技术与工程. 2013(14)
[7]一种面向高维数据的均分式Lasso特征选择方法[J]. 施万锋,胡学钢,俞奎.  计算机工程与应用. 2012(01)
[8]惯性权重粒子群算法模型收敛性分析及参数选择[J]. 孙湘,周大为,张希望.  计算机工程与设计. 2010(18)
[9]生物信息学中基因芯片的特征选择技术综述[J]. 周昉,何洁月.  计算机科学. 2007(12)
[10]基因选择的快速Fisher优化模型[J]. 封举富,时建新.  北京大学学报(自然科学版). 2005(01)

硕士论文
[1]深度对抗式数据增强技术在小规模数据集上的应用研究[D]. 张晓峰.中国科学技术大学 2019
[2]基于打分准则和微粒群算法的基因选择方法研究[D]. 唐迪.江苏大学 2017

本文编号：3558429

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3558429.html

上一篇：宁夏综合气象信息共享与管理系统设计研究
下一篇：基于改进混合作用力微粒群算法的液压阀块加工车间调度优化

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|