基于CFS-HDRF的不平衡数据集分类算法研究与应用

发布时间:2023-04-30 05:03
  不平衡数据集是数据挖掘研究领域的一类重要数据类型,在客户流失、信用评价和异常检测等应用领域得到广泛关注。随机森林是一种集成学习分类方法,在解决不平衡数据集分类问题上有着优良的性能。但随机森林采用基尼系数作为基分类器决策树的特征选择与结点分裂算法,该算法对不平衡数据具有类别分布偏斜敏感性,影响了数据的分类效果。针对此问题,论文的研究内容主要包括:(1)结合海林格距离与海林格决策树算法,论述与验证该算法对类不平衡不敏感的特点,通过实验验证海林格随机森林算法的效果与评价指标。针对基尼系数偏斜敏感问题,由于海林格距离对类不平衡性不敏感,所以本文采用海林格距离作为决策树的特征选择与结点分裂标准,探究海林格随机森林使用正确率、Kappa分析在不平衡数据集分类上的效果。通过实验发现海林格随机森林在不平衡数据集分类上的良好效果,但是该实验存在缺少特征不平衡与特征冗余的处理,评价指标不合理的问题。(2)构建基于关联规则特征选择的海林格随机森林算法。类别不平衡衍生少数样本类的特征失衡问题,导致多数样本类的过拟合问题,针对海林格随机森林缺少特征不平衡处理与实验中评价指标不合理问题,采用关联规则特征选择进行特...

【文章页数】:57 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 绪论
    1.1 选题缘起与意义
    1.2 国内外研究现状
        1.2.1 不平衡数据集分类问题的研究现状
        1.2.2 随机森林算法在不平衡数据集分类问题上的研究现状
        1.2.3 不平衡数据集分类问题特征选择方法研究现状
    1.3 主要研究内容与论文安排
        1.3.1 主要研究内容
        1.3.2 本文组织结构
    1.4 本章小结
第2章 相关理论
    2.1 随机森林相关算法概述
        2.1.1 相关决策树算法
        2.1.2 随机森林算法
    2.2 海林格距离与海林格决策树
        2.2.1 海林格距离介绍
        2.2.2 海林格决策树
    2.3 关联规则特征选择理论
        2.3.1 关联规则特征选择理论介绍
        2.3.2 关联规则特征选择理论在不平衡数据集分类中的作用
    2.4 不平衡数据集分类的评价标准
    2.5 本章小结
第3章 CFS-HDRF算法的构建与实验分析
    3.1 HDRF模型
        3.1.1 HDRF模型流程图
        3.1.2 HDRF算法过程
        3.1.3 HDRF模型实验
    3.2 CFS-HDRF算法
        3.2.1 问题分析
        3.2.2 改进思路
        3.2.3 算法流程图
        3.2.4 算法实现过程
    3.3 实验设计与分析
        3.3.1 实验准备
        3.3.2 实验设计
        3.3.3 实验结果分析
        3.3.4 训练样本量分析与改进
        3.3.5 参数优化
    3.4 本章小结
第4章 基于CFS-HDRF算法的软件工程学习型团队绩效评估原型系统设计
    4.1 引言
    4.2 数据处理
        4.2.1 数据集说明
        4.2.2 数据预处理
    4.3 系统需求分析与架构
        4.3.1 系统需求分析
        4.3.2 系统架构
    4.4 系统设计
    4.5 系统主要界面
    4.6 系统效果分析
    4.7 本章小结
总结与展望
参考文献
致谢
个人简历、在学期间发表的学术论文及研究成果



本文编号:3806478

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3806478.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户d7244***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]