基于hadoop与加权模型的FP-growth算法的优化研究

发布时间：2024-02-28 19:40

　　数据挖掘是以某种方式分析数据源,从中发现一些潜在的有用的信息,所以数据挖掘又称为知识发现,而关联规则挖掘是数据挖掘中的一个重要课题,从数据背后发现事物之间存在的关联。如今,关联规则挖掘技术已经广泛应用于金融、互联网、医疗等众多领域,学者们对于关联规则挖掘算法的研究热情更是日益高涨。传统的关联规则挖掘算法都默认事物具有相同的重要性且分布均匀,但是在实际的生产和生活中,事物往往都具有不同的重要性且分布不均,因此,本文基于加权关联规则挖掘算法进行研究。本文在引进加权模型的条件下,主要针对经典的FP-growth算法进行了改进,一方面是采用有序FP树来代替传统FP树,进而减少存储空间的利用;另一方面是采用二维列表记录项的加权支持度,省去了在生成加权条件FP子树时对条件模式基的第一次遍历。基于关联规则挖掘中要处理的数据量越来越大的情况,Hadoop分布式系统架构应运而生,海量数据的处理不再是难题。本文采用Hadoop中的Map Reduce并行计算框架来处理数据集,并提出均衡化分组策略,避免了数据倾斜的产生,分布式数据处理降低了时间复杂度,能够高效地进行海量数据的关联规则挖掘。本文研究了基于ha...

【文章页数】：69 页

【学位级别】：硕士

【部分图文】：

图2-1频繁模式树FP-tree第三步，从FP-tree的底端自下而上进行挖掘，为项头表中每个节点生成条

第二章相关理论及技术研究11第一步，对事务数据库D进行扫描，计算各项的支持度，将小于最小支持度的项剔除，剩余项按支持度降序排列，若支持度相同时按字母顺序排列，得到频繁1项集L={A:8,E:7,C:5,G:4,B:2,D:2,F:2}。有序事务集如表2-4第3列所示。第二步，创建....

图2-2Hadoop结构框架图

天津工业大学硕士学位论文14同的机器，然后Reduce函数将拆分并处理后的数据进行整合统计，输出最终结果。（3）Yarn。Yarn是Hadoop2.x中被引入的核心部件，它是Hadoop的资源管理系统。它可以理解为是一个“管理平台”，使Hadoop不仅可以支持MapReduce计....

图2-3MapReduce执行流程图

第二章相关理论及技术研究152.3.2并行计算框架MapReduceMapReduce是我们在进行大数据处理的时候经常要使用的计算模型，通过MapReduce很容易在Hadoop平台上进行分布式的计算编程。MapReduce由两个关键性操作构成，即Map（映射）与Reduce（归....

图2-4WordCount案例MapReduce流程

天津工业大学硕士学位论文16（4）ShuffleShuffle是介于Map和Reduce过程中间的操作，它需要从所有Map任务输出的结果中筛选键值对，将具有相同key的<key,value>对组合在一起发送到同一个Reduce任务中作为输入。（5）化简ReduceReduce负责....

本文编号：3913929

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3913929.html

上一篇：内部控制披露调节下企业信息化程度对审计费用影响研究
下一篇：大数据技术开展学生评教的研究与应用

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|