基于主动学习的标签噪声清洗方法研究

发布时间:2022-12-07 03:24
  随着互联网和移动互联网的快速发展和广泛使用,人们获取到的数据的规模也在不断增长,如何从数据中提取有价值的信息变得越来越重要。机器学习作为一种数据挖掘与分析的重要技术,其目的是从数据中挖掘关键信息,利用已有信息对未知信息进行预测,从而更好地为人们提供决策依据。监督学习是机器学习中的主要学习方式之一,而标签是监督学习的关键特征,对模型的训练起着至关重要的作用。现实生活中的数据由于在标记标签过程中受一些主观因素的限制,如专业领域知识的限制、人为标记错误等的影响,导致数据中可能存在一定程度的标签噪声,从而对模型产生严重的负面影响,因此,提高训练样本数据的标签质量对监督学习具有重要意义。目前,对标签噪声的处理大都是对样本进行噪声识别后直接过滤,这种处理标签噪声的方法虽然简单,但当数据中噪声样本含量较高时,丢弃这些噪声样本会造成数据信息的缺失。本文针对标签噪声过滤可能会丢弃过多样本这一问题,结合主动学习方法,对分类问题的标签噪声识别与处理方法开展研究。主要内容概括如下:(1)提出基于主动学习的标签噪声清洗方法ALNC(Active Label Noise Cleaning)。针对去除大量噪声样本时... 

【文章页数】:52 页

【学位级别】:硕士

【文章目录】:
中文摘要
ABSTRACT
第一章 引言
    1.1 研究背景
    1.2 国内外研究现状
    1.3 论文的主要工作
    1.4 论文结构
第二章 背景知识
    2.1 主动学习简介
    2.2 采样方法简介
    2.3 本章小结
第三章 标签噪声主动清洗
    3.1 基于主动学习的标签噪声清洗方法
        3.1.1 ALNC算法原理
        3.1.2 ALNC算法步骤
    3.2 实验结果与分析
        3.2.1 实验数据
        3.2.2 实验参数
        3.2.3 实验结果
    3.3 本章小结
第四章 基于采样的标签噪声主动清洗
    4.1 基于SPXY采样的标签噪声主动清洗方法
        4.1.1 SPXY_ALNC算法原理
        4.1.2 SPXY_ALNC算法步骤
    4.2 实验结果与分析
        4.2.1 实验数据
        4.2.2 实验参数
        4.2.3 实验结果
    4.3 本章小结
第五章 总结与展望
参考文献
攻读学位期间取得的研究成果
致谢
个人简况及联系方式


【参考文献】:
期刊论文
[1]基于主动学习的标签噪声清洗方法[J]. 孟晓超,姜高霞,王文剑.  陕西师范大学学报(自然科学版). 2020(02)
[2]基于数据分布的标签噪声过滤[J]. 陈庆强,王文剑,姜高霞.  清华大学学报(自然科学版). 2019(04)
[3]采样方法研究综述[J]. 宋寿鹏,邵勇华,堵莹.  数据采集与处理. 2016(03)
[4]一种任意维Line-Sweep计算的数据划分算法[J]. 王鹏,邱枫,张为华,臧斌宇,朱传琪.  计算机学报. 2012(12)
[5]主动学习算法综述[J]. 刘康,钱旭,王自强.  计算机工程与应用. 2012(34)
[6]最小最大模块化网络中基于聚类的数据划分方法研究[J]. 解晓敏,李云.  南京大学学报(自然科学版). 2012(02)
[7]重采样方法与机器学习[J]. 毕华,梁洪力,王珏.  计算机学报. 2009(05)
[8]SPXY样本划分法及蒙特卡罗交叉验证结合近红外光谱用于橘叶中橙皮苷的含量测定[J]. 展晓日,朱向荣,史新元,张卓勇,乔延江.  光谱学与光谱分析. 2009(04)
[9]发酵过程中神经网络训练样本的选取[J]. 李运锋,袁景淇,薛耀锋.  化工自动化及仪表. 2004(06)



本文编号:3712143

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3712143.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户4d837***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]