当前位置:主页 > 管理论文 > 领导决策论文 >

基于决策树的不平衡数据集分类问题研究

发布时间:2023-04-28 15:03
  分类问题中,当数据集中某类别所包含的样本数目显著少于其他类别时,很多分类算法的准确率明显下降。针对这一问题,研究者们提出了多种解决方法,其中以决策树为基分类器的集成学习方法是重要的一类。本文研究了决策树处理不平衡数据集的三个问题。第一,不同于常用的将少数类与多数类样本数目调整至相近的采样方法,本文从决策树最优分裂的角度,提出了在不同分裂指标下确定少数类过采样比例的算法;第二,对于调整样本类别比例对二分类决策树分裂的影响,本文从最优分裂特征的选择出发,给出了类分布变化对二分类决策树影响程度的判别方法;第三,本文研究了采样方法调整了训练集的类分布后,二分类分类器后验概率估计出现的偏差,并给出了一种修正后验概率估计偏差的简洁方式。结合第二章的主要结论,在第三章,对于过采样与集成学习结合的处理方法SMOTEBoost,本文将算法每次迭代中固定的过采样数目,改进为根据样本类别数目做适应性调整;对于欠抽样与集成学习结合的处理方法EUSBoost,本文对其后验概率估计的偏差进行了修正。在UCI数据集上的实验结果表明了以上改进均提升了分类效果。

【文章页数】:43 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
主要符号对照表
第一章 不平衡数据集分类问题
    1.1 不平衡数据集分类问题综述
    1.2 本文的工作
第二章 不平衡集下决策树的生成
    2.1 决策树的分裂
    2.2 提出不平衡集多分类问题的采样算法
    2.3 提出类分布变化对节点分裂影响程度的判别算法
    2.4 给出调整后验概率估计偏差的简化方法
    2.5 本章小结
第三章 采样与集成
    3.1 集成方法介绍
    3.2 改进SMOTEBoost算法
        3.2.1 ASMOTEBoost算法
        3.2.2 实验结果
    3.3 改进EUSBoost算法
        3.3.1 cEUSBoost算法
        3.3.2 实验结果
    3.4 本章小结
第四章 结束语
    4.1 主要工作与创新点
    4.2 后续研究工作
参考文献
致谢



本文编号:3804032

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3804032.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户c6e9e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com