基于标记权重与加权核极限学习机的多标记学习研究

发布时间:2024-04-12 05:33
  多标记学习是机器学习和数据挖掘中的研究重点之一,其目的是通过分析已有多标记数据对未知样本进行较准确的预测。在大多数多标记数据集中,描述样本的特征数存在大量冗余特征。冗余特征不仅影响分类精度,还增加了计算的复杂性。特征选择能有效解决上述问题。然而,在实际分类问题中,类不平衡的问题也是机器学习的研究难点之一。本文充分调研了相关参考文献,总结了研究现状,分析了现有方法的优缺点。在此基础上,挖掘标记对样本可区分度对标记赋权值。并针对类不平衡问题提出了一种解决方法,本文的主要研究工作如下:(1)挖掘出标记对样本可区分度,并依据此对标记赋权值,提出了基于核函数和标记权重的多标记特征选择算法(Multi-label feature selection based on kernel function and label weighting,KF-LW)。首先分别统计贴有不同标记的样本数量。若对某个标记,贴有该标记的样本数量明显高于含有其他标记的样本数量,则表明该标记的权重越大,根据标记空间的信息对标记进行权重赋值;然后,利用核函数将原始特征空间映射到高维空间,使得特征具有可分性,最后根据信息熵度量特...

【文章页数】:49 页

【学位级别】:硕士

【部分图文】:

图1.1多标记示例

图1.1多标记示例

2(a)医疗、经济、生物(b)森林、经济、澳大利亚图1.1多标记示例在多标记学习中,为了尽可能准确地描述样本,用若干个特征描述该样本,同时,该样本同时属于多个类别标记。根据已知的多标记数据,学习样本特征到标记之间的映射关系,并通过该映射关系尽可能准确的预测出未知样本的标记。然而,....


图1.2特征选择的基本过程模型图

图1.2特征选择的基本过程模型图

5图1.2特征选择的基本过程模型图处理多标记问题时,按照处理思路,主要是分为两类:问题转化法和算法转化法。问题转化法是将多标记问题转化为多个单标记问题,然后可以利用已有的单标记算法解决多标记分类问题。目前,问题转化方法主要分为BR(BinaryRelevance)和LP(Labe....


图1.3经过BR方法转化的结果

图1.3经过BR方法转化的结果

6表1.1多标记数据集样本属性标记11x1l,3l22x2l33x1l,2l44x3l(a)标记1l(b)标记2l(c)标记3l图1.3经过BR方法转化的结果算法转化方法则是改编现已提出的单标记学习算法以解决多标记分类问题。其优点是能够避免问题转化过程中造成的信息损失。在现已提出....


图1.1多标记示例

图1.1多标记示例

然而,在现实世界中,样本通常由多个特征对其进行描述,同时,样本也属于多个类别标记[9]。例如,一篇关于新型冠状肺炎的报道中,其可能同时属于医疗、经济、生物等多个主题。一段关于澳大利亚大火的视频,其同时属于森林、经济、澳大利亚等多个类别标记。而单标记学习假定样本只属于一类标记,则其....



本文编号:3951739

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3951739.html

上一篇:基于中文名称规范档的人物信息聚合研究  
下一篇:没有了

Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户8c790***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]