基于MapReduce改进密度峰值大数据搜索研究

发布时间：2022-01-15 09:52

　　互联网数据的非结构化特征,给大数据的高性能搜索带来严峻挑战,为此,提出基于MapReduce部署的改进密度峰值数据搜索方法。密度峰值摆脱对簇的前置依赖,能够更好的完成数据分类,为进一步优化算法对非结构复杂数据的处理能力,采用截断与高斯分别设计针对离散数据与连续数据的局部密度,并根据密度与欧式距离计算相对距离,进而确定数据聚类中心。另外,设计MapReduce分布式处理框架上,将大数据搜索算法部署其上,通过任务分解提升大数据处理性能。通过实验结果分析,验证基于MapReduce部署的改进密度峰值方法能够有效提升数据搜索效率与准确性,具有良好的海量数据并行计算能力。

【文章来源】：电子制作. 2020,(21)

【文章页数】：3 页

【部分图文】：

数据搜索时间

曲线,准确率,加速比,框架图

数据搜索准确率

曲线,加速比,曲线,数据

图3 数据搜索准确率最后对方法的加速比进行实验验证,结果如图4所示。该指标用于衡量MapReduce部署改进密度峰值数据搜索的扩展和并行能力,其值越大越好。从图中结果可知,在数据规模增加的过程中,加速比逐渐增加,并且增速不断提升。这主要是由于Hadoop集群具有良好的并发处理能力,以及MapReduce的任务拆分与结果合并能力,使得本文方法具有良好的扩展和并行效果。

【参考文献】：
期刊论文
[1]基于布谷鸟搜索优化算法的多文档摘要方法[J]. 周诗源,王英林.  计算机工程. 2020(07)
[2]基于递归随机搜索算法的Hadoop平台大数据软件系统研究[J]. 齐超,崔然.  软件. 2020(06)
[3]复杂高维数据的密度峰值快速搜索聚类算法[J]. 陈俊芬,张明,赵佳成.  计算机科学. 2020(03)
[4]一种基于密度峰值的针对模糊混合数据的聚类算法[J]. 陈奕延,李晔,李存金.  计算机工程与科学. 2020(02)
[5]基于Spark并行的密度峰值聚类算法[J]. 孙伟鹏,吴锡生,孟斌.  计算机应用研究. 2020(01)
[6]改进密度峰值支撑点选取及其在度量空间离群检测的应用[J]. 许红龙,唐颂,毛睿,陈国良,刘刚.  小型微型计算机系统. 2017(05)

本文编号：3590404

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3590404.html

上一篇：基于多维可测量空间的群智能拓展研究
下一篇：基于Jaya的贝叶斯网络结构学习算法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|