当前位置:主页 > 科技论文 > 自动化论文 >

融合混合采样技术与Adaboost思想的不平衡数据分类学习算法的研究

发布时间:2024-02-24 01:25
  不平衡数据集指的是数据集中某一类(下称多数类)的样本数量相对其他类(少数类)多得多。传统的分类算法默认训练集中各样本类别的样本数量基本均衡,然而实际的数据集中样本可能不平衡,不平衡数据集的分类问题中,传统的分类算法更关注整体的分类精度,实际应用中有时候更关注少数类的正确分类。本研究从样本分布特点和样本特征两方面对不平衡数据集进行分析研究,提出聚类思想的欠采样方法和特征对类别影响的过采样方法,最后将两种方法与Adaboost算法融合,提出一个针对不平衡数据集的集成学习分类算法。首先,本研究根据样本分布特点,提出一个基于聚类的样本欠采样方法。该方法通过对不平衡数据集中多数类样本进行聚类,通过聚类的簇的大小判别簇中样本所携带的信息量,对携带不同信息量的簇采用不同的采样策略,去掉多数类中的离群点和边缘样本,减少多数类中的难分样本,同时降低数据集的不平衡性。其次,本研究针对不平衡数据集的基于特征影响提出过采样方法。在数据集中,样本特征对各个类别的影响是不一样的,因此样本的每个特征对每个类别存在不同的重要程度。由此可将样本特征进行分类,然后根据特征分类结果对少数类进行过采样,实现数据的平衡。经实验...

【文章页数】:60 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 分类中数据不平衡的研究背景及意义
    1.2 国内外研究现状
        1.2.1 数据层面的方法
        1.2.2 算法层面的方法
    1.3 本文研究内容
    1.4 本文结构安排
第2章 不平衡数据集研究概述
    2.1 不平衡数据集概述
    2.2 不平衡数据集分类学习的难点
        2.2.1 少数类样本稀缺
        2.2.2 样本边界分布问题
        2.2.3 数据碎片
        2.2.4 噪声样本
    2.3 不平衡数据的评价准则
        2.3.1 F-measure准则
        2.3.2 G-mean准则
        2.3.3 ROC曲线以及AUC
    2.4 相关理论知识点
        2.4.1 k-means聚类算法
        2.4.2 SMOTE算法
        2.4.3 遗传算法
        2.4.4 Adaboost算法
    2.5 本章小结
第3章 基于样本分布特点的聚类欠采样方法
    3.1 基于样本分布特点的聚类欠采样方法
        3.1.1 SDC-US算法的思想
        3.1.2 SDC-US算法的描述
    3.2 实验分析
        3.2.1 实验数据集
        3.2.2 实验过程及结果分析
    3.3 本章小结
第4章 基于特征对类别影响的过采样方法
    4.1 基于特征对类别影响的过采样方法
        4.1.1 FI-OS算法思想
        4.1.2 FI-OS算法描述
    4.2 实验分析
        4.2.1 实验结果及分析
    4.3 本章小结
第5章 融合混合采样与Adaboost算法的分类学习算法
    5.1 融合混合采样与Adaboost算法的分类学习算法
        5.1.1 MSAdaBoost算法描述
        5.1.2 MSAdaBoost算法步骤
    5.2 实验分析
        5.2.1 实验结果及分析
    5.3 本章小结
总结与展望
参考文献
致谢
攻读硕士学位期间发表的学术论文



本文编号:3908297

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3908297.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户0baaa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com