K-Modes聚类算法优化研究

发布时间：2024-02-29 04:17

　　聚类算法可以用于将整个样本集合划分为多个群落,从而发现有意义的样本群体。因此作为一种高效的数据分析工具,聚类算法早已成为国内外学者广泛研究的热点技术之一。Huang提出的K-Modes聚类算法使用属性匹配度量公式拓展了K-Means聚类算法,使其可以对无序型分类属性数据执行聚类分析。该算法使用的0-1简单匹配相异度度量方法弱化了类内同一维度属性下属性值之间的相似性,忽略了不同维度属性之间的差异性。单一属性值的聚类中心Modes忽视了某一维度属性可能存在多属性值组合,且算法受初始中心点影响很大。以上问题都有可能导致分类数据的聚类效果较差。此外由于数据的爆炸式增长,串行执行的传统算法难以在有效时间内处理超大规模的数据集和超高维度的数据模型。Spark作为最新的大数据平台善于执行海量数据的分析任务,然而Spark现有的机器学习算法库中缺少分类数据的聚类算法,导致无法有效利用Spark平台处理海量分类数据的聚类问题。针对以上问题本文首先提出了一种MAV-K-Modes聚类算法,使用基于预聚类的多属性值聚类中心Modes初始化方法和基于多属性值聚类中心Modes的相异度度量方法。其次本文在改进后...

【文章页数】：66 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
第1章绪论
    1.1 研究背景及意义
        1.1.1 属性数据分类及K-Modes聚类算法的研究意义
        1.1.2 大数据背景下K-Modes聚类算法面临的挑战
    1.2 国内外相关工作分析
        1.2.1 面向准确率的聚类算法优化
        1.2.2 面向执行效率的聚类算法优化
    1.3 本文的研究内容
    1.4 本文的章节安排
第2章相关技术背景
    2.1 聚类算法介绍
        2.1.1 聚类算法概述
        2.1.2 聚类算法分类
        2.1.3 相异度度量公式
        2.1.4 性能评价指标
    2.2 大数据平台介绍
        2.2.1 Hadoop平台介绍
        2.2.2 Spark平台介绍
        2.2.3 Spark和 Hadoop的对比
    2.3 本章小结
第3章基于多属性值Modes的 MAV-K-Modes算法
    3.1 传统K-Modes聚类算法
    3.2 基于多属性值Modes的 MAV-K-Modes算法
        3.2.1 信息熵理论
        3.2.2 基于多属性值Modes相异度度量公式
        3.2.3 基于预聚类的初始选点方法
        3.2.4 算法核心流程
    3.3 实验分析
    3.4 本章小结
第4章基于Spark的 MAV-K-Modes算法
    4.1 基于Spark的并行MAV-K-Modes聚类算法
        4.1.1 并行优化思路
        4.1.2 并行算法设计
    4.2 基于Spark的增量MAV-K-Modes聚类算法
        4.2.1 增量优化思路
        4.2.2 增量算法设计
    4.3 实验分析
        4.3.1 Spark集群环境
        4.3.2 并行MAV-K-Modes算法实验
        4.3.3 增量MAV-K-Modes算法实验
    4.4 本章小结
结论
参考文献
攻读硕士学位期间获得的科研成果
致谢

本文编号：3914483

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3914483.html

上一篇：基于J2EE的广西地税行政审批数据交换系统的设计和实现
下一篇：基于Artifact生命周期的业务流程一致性检查问题研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|