基于K-Means与原型网络的两阶段聚类算法及应用

发布时间:2024-03-02 12:15
  大数据领域的迅速发展,使得用户数据信息日益完善、数仓整合更加合理、数据质量不断提高,因此数据的价值越来越大。如何合理的利用户数据进行个性化服务和推荐已经成为智能社交平台的研究热点。而用户分层是个性化服务的基础,因此做好基础的聚类任务至关重要。目前应用较为广泛的K-Means算法在混合数据聚类上受限于相似性度量的选择,所以本文提出了基于K-Means算法与原型网络的两阶段聚类算法,将原型网络扩展到无监督聚类,从而可以通过原型网络训练得到一个嵌入空间,使得混合数据投影到嵌入空间后类内高度聚合,类间高度分离。为了验证算法可行性,我们首先在手写字数据集上进行测验。该数据集共有1700个样本,共有10个类别。首先是第一阶段使用K-Means算法标注阈值范围内的样本,实现数据转化,然后将标注样本放入原型网络训练得到嵌入空间并完成所有样本的聚类。同时我们还与K-Means算法、K-Means++算法、PCA-based算法进行聚类效果比较。采用同质性评分、完整性评分、ARI、AMI、Silhouette、V measure这五个指标进行聚类效果的对比。结果表明:本文提出的算法各项指标最高,PCA-b...

【文章页数】:53 页

【学位级别】:硕士

【部分图文】:

图2.1嵌入空间示意图

图2.1嵌入空间示意图

第二章聚类算法简介9算法原理简单但仍能得到良好的训练结果。原型网络的基本思想是从支持集={(1,1),,(,)}中提取每个类原型向量,并根据查询集与每个类的原型向量之间的距离对查询集中的样本点进行分类。更准确地说,原型网络学习了一个嵌入函数h(x)用于数据投影,该函数被参数化为神....


图3.3手写数字数据集

图3.3手写数字数据集

第三章基于K-Means与原型网络的两阶段聚类算法19图3.3手写数字数据集图3.4数据集所含类别分占比布图3.2.1聚类算法间的比较为了论证本文提出的算法的有效性,我们将对比分析本文提出的算法与的K-Means算法及其改进算法的聚类效果。Random表示最基本的K-Means算....


图3.4数据集所含类别分占比布图

图3.4数据集所含类别分占比布图

第三章基于K-Means与原型网络的两阶段聚类算法19图3.3手写数字数据集图3.4数据集所含类别分占比布图3.2.1聚类算法间的比较为了论证本文提出的算法的有效性,我们将对比分析本文提出的算法与的K-Means算法及其改进算法的聚类效果。Random表示最基本的K-Means算....


图3.5手写数字聚类实验结果图

图3.5手写数字聚类实验结果图

基于K-Means与原型网络的两阶段聚类算法及应用20算法的一种改进算法,不同于传统的随机抽样的方法选取初始聚类中心的方法,该算法在选择初始聚类中心时尽可能地让各聚类中心之间距离远,也就是让各类别的差异尽可能的明显;PCA-based算法是先对原始数据进行主成分分析,对原始数据进....



本文编号:3916844

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3916844.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户65148***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]