当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于MapReduce改进密度峰值大数据搜索研究

发布时间:2022-01-15 09:52
  互联网数据的非结构化特征,给大数据的高性能搜索带来严峻挑战,为此,提出基于MapReduce部署的改进密度峰值数据搜索方法。密度峰值摆脱对簇的前置依赖,能够更好的完成数据分类,为进一步优化算法对非结构复杂数据的处理能力,采用截断与高斯分别设计针对离散数据与连续数据的局部密度,并根据密度与欧式距离计算相对距离,进而确定数据聚类中心。另外,设计MapReduce分布式处理框架上,将大数据搜索算法部署其上,通过任务分解提升大数据处理性能。通过实验结果分析,验证基于MapReduce部署的改进密度峰值方法能够有效提升数据搜索效率与准确性,具有良好的海量数据并行计算能力。 

【文章来源】:电子制作. 2020,(21)

【文章页数】:3 页

【部分图文】:

基于MapReduce改进密度峰值大数据搜索研究


数据搜索时间

曲线,准确率,加速比,框架图


数据搜索准确率

曲线,加速比,曲线,数据


图3 数据搜索准确率最后对方法的加速比进行实验验证,结果如图4所示。该指标用于衡量MapReduce部署改进密度峰值数据搜索的扩展和并行能力,其值越大越好。从图中结果可知,在数据规模增加的过程中,加速比逐渐增加,并且增速不断提升。这主要是由于Hadoop集群具有良好的并发处理能力,以及MapReduce的任务拆分与结果合并能力,使得本文方法具有良好的扩展和并行效果。

【参考文献】:
期刊论文
[1]基于布谷鸟搜索优化算法的多文档摘要方法[J]. 周诗源,王英林.  计算机工程. 2020(07)
[2]基于递归随机搜索算法的Hadoop平台大数据软件系统研究[J]. 齐超,崔然.  软件. 2020(06)
[3]复杂高维数据的密度峰值快速搜索聚类算法[J]. 陈俊芬,张明,赵佳成.  计算机科学. 2020(03)
[4]一种基于密度峰值的针对模糊混合数据的聚类算法[J]. 陈奕延,李晔,李存金.  计算机工程与科学. 2020(02)
[5]基于Spark并行的密度峰值聚类算法[J]. 孙伟鹏,吴锡生,孟斌.  计算机应用研究. 2020(01)
[6]改进密度峰值支撑点选取及其在度量空间离群检测的应用[J]. 许红龙,唐颂,毛睿,陈国良,刘刚.  小型微型计算机系统. 2017(05)



本文编号:3590404

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3590404.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ce852***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com