当前位置:主页 > 管理论文 > 信息管理论文 >

基于Elasticsearch的实时大数据统计分析平台的研究与设计

发布时间:2020-06-22 00:20
【摘要】:为了全面落实《电信和互联网用户个人信息保护规定》和《电话用户真实身份信息登记规定》的要求,工信部下属的信息与通信研究院建设电信身份信息核查平台,为电信企业提供统一的身份信息核查。同时,为推动实施国家大数据战略,对身份信息核查业务进行实时的、多角度的大数据业务统计和平台监测,本论文从实际需求出发,结合新版本的Kafka 2.0.0、Spark Streaming 2.4.0、Elasticsearch 6.4.0,设计并开发一款实时大数据统计分析平台。本论文采用Spark Structured Streaming数据流处理系统作为基础,设计了一个基于Elasticsearch全文检索系统的实时大数据统计分析平台。该平台以Grizzly Nio Http接口作为数据入口,Kafka为数据管道,充分利用Kafka数据高速传输和负载均衡的能力。采用Spark Structured Streaming对数据进行流计算和批计算,即时输出简单的统计信息,并将处理后的结构化数据存储至Elasticsearch。本系统采用最新的Grizzly Nio Http接口和Java11,以代替目前通用的Netty Nio Http接口。Grizzly和Java11的组合提供了高质量应用服务器的结构化接口,能高速提供Http服务。系统采用Spark 2.0所提供新特性Spark Structured Streaming架构。该架构同时包含高效的流计算和批计算,能有效地对数据流进行实时处理和转发。其特有的端到端设计能有效减少网络IO读写延时,并且架构中有针对Kafka和Elasticsearch的专用优化接口。为了节省硬件资源,通过合适的方案设计和系统配置,Kafka、Spark Streaming和Elasticsearch三个核心组件将分别着重消耗不同的硬件资源,能同时部署在同一台服务器上,从而减少了服务器数量。系统架构简单,数据流向清晰,而且部署简单,开发方便,移植性强。本文在3台10核2.4GHz CPU,256GB内存,24块2TB 3.5寸SATA硬盘的服务器上部署本系统,并进行功能和性能测试。测试结果表明,该测试系统在每条数据227字节、40万条/s的数据输入中,能达到数据延迟不大于1s。在使用了Java11后,Full GC频率明显下降;在使用了Grizzly Nio后,相比通用的Netty Nio平台提速22%;在使用了Spark Structured Streaming后,入库延迟相比Spark Streaming减少了34%。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F626;TP311.13
【图文】:

应用图,系统配置,部署方案,平台软件


第五章 平台软件部署方案.tcp_tw_reuse = 1somaxconn = 8192netdev_max_backlog = 8192.tcp_max_syn_backlog = 8192ax = 1000000_map_count = 655360命令 sysctl -p 应用配置,如出现图 5-3,则配置成功

数据,服务器,并发性,处理量


图 6-2 每 5 秒平均 Http 处理延迟数据.3.2 Grizzly 测试Grizzly Nio 和 Netty Nio 的测试结果如图 6-3 所示,每秒完成 Http 请求和响应图图中可以看出,GrizzlyNio 能处理的每秒并发数达到单台服务器约 27000/s,而 Nio 则只有单台服务器约 22000/s 的处理量。明显 Grizzly Nio 的高并发性能比 Netty%。

【参考文献】

相关期刊论文 前4条

1 李祥池;;基于ELK和Spark Streaming的日志分析系统设计与实现[J];电子科学技术;2015年06期

2 薛瑞;朱晓民;;基于Spark Streaming的实时日志处理平台设计与实现[J];电信工程技术与标准化;2015年09期

3 张建中;黄艳飞;熊拥军;;基于ElasticSearch的数字图书馆检索系统[J];计算机与现代化;2015年06期

4 金志国;李炜;;基于Netty的HTTP客户端的设计与实现[J];电信工程技术与标准化;2014年01期

相关硕士学位论文 前10条

1 徐玉景;基于Kafka的全链路流数据处理平台的设计与实现[D];山东大学;2018年

2 张殿超;大数据平台计算架构及其应用研究[D];南京邮电大学;2017年

3 费秀宏;基于Kafka的日志处理平台的研究[D];吉林大学;2017年

4 李洋;基于Storm与Hadoop的日志数据实时处理研究[D];西南大学;2017年

5 李申申;基于Storm的实时交通信息管理系统的设计与实现[D];扬州大学;2017年

6 张文虎;连接操作在Spark框架上的实现与优化[D];国防科学技术大学;2016年

7 张之宣;云计算环境下实时日志分析系统的设计与实现[D];浙江大学;2016年

8 杜忠晖;非结构化文档数据一体化存储检索技术研究[D];哈尔滨工业大学;2015年

9 武路;移动应用实时统计系统设计与实现[D];西安电子科技大学;2014年

10 刘蓬;NIO高性能框架的研究与应用[D];湖南大学;2013年



本文编号:2724878

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/sjfx/2724878.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户94b90***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com