基于非均衡数据对神经网络激励函数的改进研究

发布时间：2024-01-31 22:04

　　随着计算机技术的发展和普及应用,在极大丰富信息资源的同时,数据量爆炸的问题也伴随而来。原先的机器学习算法已不能满足对海量数据提取信息的需求。因此在大数据的背景下,设计出可以对大量数据进行高效运算的新算法成为当务之急。本文以模仿生物脑细胞工作原理的人工神经网络算法作为切入点,并考虑样本非对称性的影响,针对激励函数提出算法的改进方案。首先在实际应用中,一些案例正负类样本的非对称性问题对算法的学习造成了极大的迷惑性。因此在建立模型前的数据预处理阶段,先平衡好正负类样本的差异,会使得后面算法表现更优。本文分别研究了欠采样(Tomek Links等)、过采样(SMOTE等)和综合采样(SMOTE+ENN)方法的原理及优缺点,最后选择表现最好的SMOTE+ENN综合采样法处理实证样本。激励函数作为算法非线性性的强力表达,其表现能力的好坏直接影响到算法结果的准确性。在BP算法中,激励函数导数直接影响模型权重最后是否可以收敛以及收敛的速度。对比Sigmoid等激励函数,最后选择表现最好的swish激励函数并对其进行改进。分别对改变函数形状的各个参数进行分析,推导它们在神经网络模型拟合中的过程,并给出改...

【文章页数】：51 页

【学位级别】：硕士

【部分图文】：

图2-1TomekLinks算法示意图

图2-1TomekLinks算法示意图图中观察可见，此算法主要剔除了在小样本类中的大样本类样本，使各更加集中。在建立TomekLinks链接对后，对满足配对的大样本类赝本除，在平衡正负类数据的同时，也减少了模型的复杂性。有一种欠采样的方法就是NearMiss算法....

图2-2Nearmiss算法示意图

图2-2Nearmiss算法示意图图中观察，能略微分辨出三种欠采样方法的区别，从原理上分析，Near于其工作原理，在多数类样本点选择上，更偏向于集中在少数类附近法更具有局部性，最后样本的分布并不是均匀的。NearMiss-3算法则离少数类近的多数类样本，因此两类样本的分布....

图2-3SMOTE及衍生算法示意图

华中科技大学硕士学位论文P加入到新的集合中。（3）最后针对在新合成集合中的每个样本点再次使用SMOTE算法生成新对于Borderline-SMOTE2[18]的思路与Borderline-SMOTE1的1、2两步都大是在新集合中不是进行简单....

图2-4SMOTE+Tomek算法示意图

图2-4SMOTE+Tomek算法示意图可以观察出，首先SMOTE是通过线性插值方法提高少数类样本过采样补充的数据量大，这样就可以一定程度上在平衡分布的问题。而后在数据中建立TomekLinks对，寻找类别之间，将这些连接对直接剔除，而且这里由于一开始扩充了样本容....

本文编号：3891623

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3891623.html

上一篇：大数据背景下独立学院应用统计学专业课程设置的几点思考
下一篇：统计图表基本版式的设计

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|