当前位置:主页 > 科技论文 > 自动化论文 >

面向不平衡样本分类的过采样集成学习算法研究

发布时间:2023-10-01 21:38
  不平衡样本分类是指对某一类样本数远多于其他类的数据集进行模式分类的问题,重点关注的是对少数类样本的识别。然而传统分类器为了追求全局准确率而倾向于将少数类误分类为多数类,针对该问题我们从数据层面和算法层面提出了相应的解决方法,以提高对少数类的识别准确率。不平衡样本分类方法主要从数据层面和算法层面考虑。在数据层面,过采样算法能够增加样本信息,有助于少数类的识别。其中,BorderLine过采样算法以及Adaptive Smote过采样算法存在边界少数类样本识别不准确的问题,导致对于种子少数类样本选择不准确,难以合成符合样本分布的数据集;算法层面的方法主要通过修改现有分类器的损失函数实现,该类方法可使分类器更加注重少数类样本从而提高对少数类样本的识别准确率。其中,代价敏感ADC2算法样本的权重更新只考虑了基分类器准确率对下一轮样本权重的更新的影响,而没有考虑样本分布对样本权重更新的影响。AdaBoost算法存在少数类样本误分类总权重小于多数类误分类总权重的问题,该问题使得分类器对少数类分类准确率降低。本文针对过采样方法以及集成分类器在处理不平衡问题中存在的不足,在原有算法的基础之上做了一些改...

【文章页数】:60 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景与研究目的
    1.2 不平衡分类问题国内外研究现状
        1.2.1 采样算法
        1.2.2 代价敏感和集成算法
    1.3 论文研究内容
    1.4 论文结构安排
第2章 不平衡样本分类经典算法与评价标准
    2.1 不平衡样本分类算法的研究
        2.1.1 边界过采样和自适应过采样方法
        2.1.2 核密度估计采样算法
        2.1.3 典型欠采样算法
        2.1.4 集成学习方法与XGBoost提升树
    2.2 不平衡样本分类评价标准
        2.2.1 原子标准
        2.2.2 复合标准
        2.2.3 AUC值
    2.3 本章小结
第3章 不平衡样本分类的过采样集成学习方法
    3.1 改进的带权过采样及其衍生算法
        3.1.1 改进的带权过采样方法描述
        3.1.2 基于多数类带权投票过采样算法
    3.2 改进权重更新的集成学习
        3.2.1 AdaBoost算法在不平衡样本分类中存在的问题
        3.2.2 改进权重更新策略
        3.2.3 BalanceBoost集成提升算法
    3.3 改进的带权过采样BalanceBoost集成学习算法
    3.4 本章小结
第4章 实验结果与分析
    4.1 实验设置
        4.1.1 数据描述
        4.1.2 实验环境及参数设置
    4.2 改进的带权过采样系列算法的有效性验证
        4.2.1 IWOS算法和其他过采样算法的对比试验
        4.2.2 WV过采样算法对比实验
    4.3 VWA算法以及BalanceBoost算法有效性验证
        4.3.1 VWA算法有效性验证
        4.3.2 BalanceBoost算法有效性验证
    4.4 IWEN算法有效性验证
    4.5 本章小结
结论
参考文献
攻读学位期间发表的学术论文
致谢



本文编号:3849467

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3849467.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户81d2b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com