云环境下数据挖掘算法的研究与设计

发布时间：2017-04-20 01:06

本文关键词：云环境下数据挖掘算法的研究与设计，由笔耕文化传播整理发布。

【摘要】：数据挖掘,又名知识发现,是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,智能地搜寻隐含在其中的有价值的信息。通过数据挖掘,不仅可以总结过去的发展历程,同时还能预测未来的发展趋势,为商业决策、医疗研究、军事等领域提供强有力的支持。然而随着大数据时代的到来,日益庞大的数据规模正在向传统数据挖工作发起挑战。大规模的计算能力成为数据挖掘技术能否有效实现的先决条件。所幸的是,计算机技术与互联网技术的发展,在产生大数据的同时,也孕育出了全新的云计算技术。凭借云计算其分布式计算平台所提供的强大计算能力,云计算与数据挖掘二者的结合存在着巨大的优势和潜力。将云计算应用到数据挖掘中,可以为越来越多的海量数据挖掘提供解决方案,这已经成为数据挖掘行业发展的趋势。在数据挖掘中,关联规则和聚类分析是重要的数据挖掘算法。其中,关联规则算法中的核心是Apriori算法,它是通过多次扫描数据库来寻找所有的频繁项集。当面对大规模数据时,重复的数据库扫描将花费大量时间和内存空间,大大降低了算法执行的效率。同样的,典型的聚类算法K-means算法需要多次进行数据对象与聚类中心间距离的计算以及同一聚类内点平均值的计算。在处理规模较大的数据时,同样受制于内存容量,往往不能有效地运行。因此,本文主要是利用Hadoop云计算平台强大的分布式计算和存储数据的能力,基于MapReduce编程模型将传统串行算法并行化设计,从而解决关联规则和聚类分析中所面临的有效处理大规模数据问题。首先,本文主要介绍了云计算Hadoop框架、关联规则Apriori算法及聚类分析K-means,同时深入研究Hadoop的两大核心技术——HDFS分布式文件系统及MapReduce编程模型。接着,基于MapReuduce编程模型,对传统数据挖掘Apriori算法和K-means进行改进,分别提出并行化设计方案。并行化后的算法将重复的计算工作分布在各个节点,减少了单个节点的计算负担和计算时间,有效地提高了算法效率,使它们能并行处理大规模数据。最后,将基于MapReduce并行化后的改进算法部署到Hadoop集群环境中,在不同大小的数据集下对改进算法进行实验,并根据实验结果分析并行算法的性能表现。实验证明,基于MapReduce的Apriori算法和K-means算法一定程度上解决了传统数据挖掘耗时长、效率低的问题。
【关键词】：云计算 Map Reduce 并行化 关联规则 聚类分析
【学位授予单位】：东华大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP311.13
【目录】：

摘要5-7
ABSTRACT7-11
第一章绪论11-17
1.1 研究背景及意义11-12
1.2 研究现状12-15
1.2.1 云计算研究现状12-14
1.2.2 数据挖掘研究现状14-15
1.3 论文的主要工作15-16
1.4 论文的组织结构16-17
第二章相关技术介绍17-25
2.1 Hadoop概述17
2.2 Map Reduce计算模型17-22
2.2.1 MapReduce基本原理17-20
2.2.2 MapReduce运行流程20-22
2.3 HDFS分布式存储文件系统22-25
2.3.1 HDFS基本框架与工作流程22-23
2.3.2 HDFS可靠性措施23-25
第三章云环境下的关联规则算法25-39
3.1 关联规则挖掘基础理论25-27
3.1.1 关联规则挖掘基本概念25-27
3.1.2 关联规则挖掘基本模型27
3.2 关联规则算法Apriori27-33
3.2.1 Apriori算法思想27-28
3.2.2 Apriori算法流程28-33
3.2.3 Apriori算法问题分析33
3.3 基于MapReduce框架的关联规则算法Apriori33-39
3.3.1 Apriori算法并行化设计33-35
3.3.3 Apriori算法并行化实现35-39
第四章云环境下的聚类分析算法39-50
4.1 聚类分析基础理论39-41
4.1.1 聚类分析基本概念39-40
4.1.2 聚类分析基本模型40
4.1.3 聚类分析算法的分类40-41
4.2 聚类分析算法K-means41-45
4.2.1 K-means算法思想41
4.2.2 K-means算法流程41-45
4.2.3 K-means算法问题分析45
4.3 基于MapReduce框架的聚类分析算法K-means45-50
4.3.1 K-means算法并行化设计45-48
4.3.2 K-means算法并行化实现48-50
第五章实验设计与分析50-62
5.1 搭建实验环境50-53
5.1.1 软硬件环境50-51
5.1.2 Hadoop实验环境搭建51-53
5.2 基于MapReduce的并行化算法可行性实验53-55
5.2.1 准备实验数据集54-55
5.2.2 实验结果与分析55
5.3 基于MapReduce的并行化算法实验与分析55-62
5.3.1 准备实验数据集55-56
5.3.2 实验结果与分析56-62
第六章结束语62-64
6.1 本文工作总结62
6.2 未来工作展望62-64
致谢64-65
参考文献65-68

【相似文献】

中国期刊全文数据库前10条

1 香丽芸;浅谈数据挖掘及其应用[J];昌吉师专学报;2001年02期

2 郑雪燕,张杰明,岳洋;数据挖掘语言[J];计算机时代;2001年11期

3 刘明晶;数据挖掘[J];华南金融电脑;2001年04期

4 张伟;刘勇国;彭军;廖晓峰;吴中福;;数据挖掘发展研究[J];计算机科学;2001年07期

5 钟晓;马少平;张钹;俞瑞钊;;数据挖掘综述[J];模式识别与人工智能;2001年01期

6 朱建平,张润楚;数据挖掘的发展及其特点[J];统计与决策;2002年07期

7 傅岚;在数据海洋中打捞信息数据挖掘[J];科技广场;2002年11期

8 李峻;数据挖掘,企业洞察先机的“慧眼”[J];中国计算机用户;2002年48期

9 罗可,蔡碧野,卜胜贤,谢中科;数据挖掘及其发展研究[J];计算机工程与应用;2002年14期

10 ;2002数据挖掘研讨班[J];计算机工程;2002年06期

中国重要会议论文全文数据库前10条

1 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集（研究报告篇）[C];2000年

2 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会（CSAE 2009）论文集[C];2009年

3 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年

4 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年

5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年

6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省（区）自动化学会第24届学术年会会议论文集[C];2006年

7 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用（CACIS）学术会议论文集[C];2007年

8 肖阳;李启贤;;数据挖掘在中国钢铁行业中的应用[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年

9 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集（第二分册）[C];2009年

10 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集（技术报告篇）[C];2001年

中国重要报纸全文数据库前10条

1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年

2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年

3 □中国电信股份有限公司北京研究院张舒博 □北京邮电大学计算机科学与技术学院牛琨;走出数据挖掘的误区[N];人民邮电;2006年

4 《网络世界》记者王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年

5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年

6 本报记者连晓东;数据挖掘：金融信息化新热点[N];中国电子报;2002年

7 本报记者凤小华朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年

8 本报记者　史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年

9 朱小宁;数据挖掘：信息化战争的基础工程[N];解放军报;2005年

10 本报记者王小平;从“大集中”走向数据挖掘[N];金融时报;2002年

中国博士学位论文全文数据库前10条

1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年

2 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年

3 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年

4 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年

5 邬文帅;基于多目标决策的数据挖掘方法评估与应用[D];电子科技大学;2015年

6 谢邦彦;整合数据挖掘与TRIZ理论的质量管理方法研究[D];首都经济贸易大学;2010年

7 李荣;生物信息数据挖掘若干关键问题研究与应用[D];复旦大学;2004年

8 李玉华;面向服务的数据挖掘关键技术研究[D];华中科技大学;2006年

9 吴少智;时间序列数据挖掘在生物医学中的应用研究[D];电子科技大学;2010年

10 王珊珊;知识指导下的数据挖掘在新闻和金融工具之间因果关系上的应用[D];中国科学技术大学;2009年

中国硕士学位论文全文数据库前10条

1 林仁红;基于数据挖掘的机遇识别与评价研究[D];首都经济贸易大学;2007年

2 张彦俊;游戏运营中的数据挖掘[D];复旦大学;2011年

3 焦亚召;基于多核函数FCM算法在数据挖掘聚类中的应用研究[D];昆明理工大学;2015年

4 王杰锋;物联网能耗数据智能分析及其应用平台设计[D];江南大学;2015年

5 刘学建;数据挖掘在电子商务推荐系统中的应用研究[D];昆明理工大学;2015年

6 戴阳阳;基于数据挖掘的金融时间序列预测研究与应用[D];江南大学;2015年

7 石思优;基于主题模型的医疗数据挖掘研究[D];广东技术师范学院;2015年

8 陈丹;移动互联网信令挖掘实现智慧营销的设计与实现应用研究[D];华南理工大学;2015年

9 陈思;基于数据挖掘的大学生客户识别模型的研究[D];昆明理工大学;2015年

10 位长帅;基于客户数据挖掘的电信客户关系管理研究[D];西南交通大学;2015年

本文关键词：云环境下数据挖掘算法的研究与设计，，由笔耕文化传播整理发布。

本文编号：317553

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/wenyilunwen/huanjingshejilunwen/317553.html

上一篇：基于电气与气压混合驱动的搬运机械手设计
下一篇：基于三维环境的小区物业信息管理系统设计与实现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|