不平衡数据集分类及相关问题研究

发布时间:2022-12-04 19:45
  不平衡数据集分类问题是数据分类领域的研究热点。利用过采样技术对不平衡数据进行预处理从而帮助分类器识别出更多的少数类样本是一种常见的解决办法。由于已有的过采样方法普遍存在无法让数据集在平衡化处理前后数据密度趋于一致、产生新样本的区域过小、采样倍率较高时样本容易重叠等问题,所以本文针对以上问题进行改进而提出新的过采样算法以便更好地完成不平衡数据集分类任务。针对数字型的不平衡数据集,本文提出了两种全新的过采样方法以对数据集进行平衡化处理。因为文本型数据进行线性插值可解释性差,所以针对不平衡的文本型数据集分类问题本文提出了一种改进的文本表示方法来改善不平衡的文本数据分类结果。为了更好地解决不同类型的不平衡数据集分类问题,本文主要做了以下工作:1.针对现有过采样方法存在抽样前后数据密度不一致、抽样权重分配不合理、数据集稀疏性评价不合理等问题,本文利用样本间的最小距离来衡量数据集的稀疏性,并且距离越远的邻居越先被用于抽样,从而提出了一种基于少数类样本间最小和最大距离的过采样策略。这种过采样算法使得分类器在经过平衡化处理后的数据集上进行训练后能够识别出更多的少数类样本,并且正确识别多数类样本的能力也... 

【文章页数】:94 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究背景及意义
        1.1.1 背景
        1.1.2 意义
    1.2 国内外研究历史与现状
        1.2.1 数据层面的解决办法
        1.2.2 算法层面的解决办法
    1.3 本文的主要贡献与创新
    1.4 本文的研究内容和结构安排
第二章 相关理论与技术的介绍
    2.1 不平衡数据集分类困难的主要因素
        2.1.1 算法方面的因素
        2.1.2 数据方面的因素
    2.2 过采样技术
        2.2.1 随机过采样
        2.2.2 基于距离的过采样
        2.2.3 基于聚类的过采样
    2.3 分类评价指标
        2.3.1 一般分类评价指标
        2.3.2 不平衡数据集分类评价指标
    2.4 文本表示方法
        2.4.1 One-hot独热编码表示法
        2.4.2 词袋模型
        2.4.3 TF-IDF
    2.5 分类方法
        2.5.1 分类概述
        2.5.2 基于机器学习的分类方法
    2.6 聚类算法
        2.6.1 聚类算法概述
        2.6.2 K-Means聚类算法
    2.7 本章小结
第三章 基于少数类样本间最大与最小距离的过采样
    3.1 引言
    3.2 已有过采样方案的研究
    3.3 基本少数类样本间最大与最小距离的过采样
        3.3.1 模型细节
        3.3.2 实验设计
    3.4 实验结果与分析
        3.4.1 比较方法
        3.4.2 实验结果
        3.4.3 结果分析
    3.5 本章小结
第四章 三角过采样
    4.1 引言
    4.2 已有方案的分析
    4.3 三角过采样
        4.3.1 模型细节
        4.3.2 实验设计
    4.4 实验结果与分析
        4.4.1 对比方案
        4.4.2 实验结果
        4.4.3 结果分析
        4.4.4 横向对比
    4.5 本章小结
第五章 TF-IDF-ρ算法及实验验证
    5.1 引言
    5.2 关于其他改进方案的分析
    5.3 TF-IDF-ρ
        5.3.1 模型细节
        5.3.2 利用TF-IDF-ρ进行文本分类的流程
        5.3.3 类区分能力ρ在训练集与测试集中相同
    5.4 实验
        5.4.1 实验设计
        5.4.2 实验结果
        5.4.3 结果分析
    5.5 本章小结
第六章 总结与展望
    6.1 全文总结
    6.2 未来展望
致谢
参考文献
攻读硕士期间取得的成果


【参考文献】:
期刊论文
[1]K-Means聚类算法研究综述[J]. 杨俊闯,赵超.  计算机工程与应用. 2019(23)
[2]SMOTE过采样及其改进算法研究综述[J]. 石洪波,陈雨文,陈鑫.  智能系统学报. 2019(06)
[3]面向不平衡数据的分类算法[J]. 蒋宗礼,史倩月.  计算机系统应用. 2019(08)
[4]基于混合采样的不平衡数据集算法研究[J]. 张明,胡晓辉,吴嘉昕.  计算机工程与应用. 2019(17)
[5]基于混合采样的非平衡数据分类算法[J]. 吴艺凡,梁吉业,王俊红.  计算机科学与探索. 2019(02)
[6]基于k最近邻和改进TF-IDF的文本分类框架[J]. 龚静,黄欣阳.  计算机工程与设计. 2018(05)
[7]基于改进TF-IDF算法的关键词抽取系统[J]. 胡亮,夏磊,李伟.  厦门理工学院学报. 2017(05)
[8]基于邻域混合抽样和动态集成的不平衡数据分类方法[J]. 高锋,黄海燕.  计算机科学. 2017(08)
[9]基于Document Triage的TF-IDF算法的改进[J]. 李镇君,周竹荣.  计算机应用. 2015(12)
[10]不平衡数据处理的新方法——基于样本相似度的少数类合成法[J]. 马景义,胡迪,孙枭枭.  数理统计与管理. 2015(05)

硕士论文
[1]基于混合采样的非平衡数据分类算法研究[D]. 吴艺凡.山西大学 2019
[2]基于传递距离的密度峰值聚类算法研究[D]. 闫高亮.西南大学 2019
[3]基于集成学习的不平衡样本分类问题研究[D]. 郭建威.哈尔滨工业大学 2017
[4]过抽样算法在不平衡数据学习中的应用[D]. 韩秋玲.华南理工大学 2011



本文编号:3708879

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3708879.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户f8878***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]