当前位置:主页 > 教育论文 > 课堂教学论文 >

基于大数据平台的K12在线教育数据仓库设计与实现

发布时间:2024-06-08 00:24
  近年来,随着互联网的发展人们产生的数据越来越多,为了处理并挖掘这些数据的价值,大数据技术得到了飞速的发展与应用。Hive作为构建与大数据基础平台之上的开源数据应用,具有高扩展性、高容错性、模式自由的特性,能很好地满足企业级数据仓库地需求。因此,各个行业已经开始大力建设基于大数据平台的数据仓库,通过其对数据进行采集、处理挖掘出其潜在的价值。本论文以K12在线教育的业务需求为背景,在充分研究企业业务需求的基础上,对基于大数据平台的K12在线教育数据仓库进行了总体的系统架构设计,针对数据处理过程进行了数据流向框架设计及技术选型。通过大数据生态开源组件搭建并部署Hadoop集群,编写Flume、Kafka等程序采集课堂埋点日志,使用Java编程语言在日志Etl清洗、转换、脱敏后接入Hive。将已有地Mysql业务库数据通过Sqoop导入Hive,采用Shell编程语言开发数据一致性校验脚本,对进入数据仓库的数据进行正确性校验。结合K12在线教育企业具体的业务需求采用维度建模,选取星型模式进行数据仓库分层设计与开发,最终完成了数据仓库的设计与实现,并对数据仓库实现的功能进行展示与分析。本论文完成...

【文章页数】:66 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 本论文的研究进展
        1.2.1 数据仓库发展现状
        1.2.2 K12 在线教育行业发展现状
    1.3 本文主要研究内容
    1.4 本文的论文的组织结构
第2章 相关技术基础
    2.1 大数据开源生态
    2.2 大数据获取技术
    2.3 大数据平台资源管理技术
    2.4 大数据处理技术
    2.5 企业级数据仓库
    2.6 本章小结
第3章 需求分析与方案设计
    3.1 需求整理
        3.1.1 功能性需求
        3.1.2 非功能性需求
    3.2 系统体系设计
        3.2.1 总体架构设计
        3.2.2 系统功能架构
        3.2.3 系统技术选型
    3.3 本章小结
第4章 数据仓库设计与实现
    4.1 基于虚拟化的大数据平台搭建
        4.1.1 Ambari集群部署
        4.1.2 数据库环境配置
    4.2 数据接入与处理实现
        4.2.1 数据源分析与定义
        4.2.2 日志采集与接入HDFS
        4.2.3 业务库数据导入与导出
        4.2.4 实时自动同步业务库信息至数据仓库
        4.2.5 数据的一致性校验
    4.3 K12 在线教育数据仓库模型设计
        4.3.1 业务主题的划分
        4.3.2 数据仓库模型建模
        4.3.3 数据仓库分层设计
        4.3.4 宽表的设计与开发
    4.4 本章小结
第5章 数据仓库在K12 在线教育领域的验证与实现
    5.1 Hive数据仓库数据导入导出验证
    5.2 K12 在线教育数据仓库性能分析
    5.3 看板与报表的展示与分析
    5.4 课次分析报告实时生成与推送
    5.5 本章小结
结论
参考文献
致谢



本文编号:3991180

资料下载
论文发表

本文链接:https://www.wllwen.com/jiaoyulunwen/ktjx/3991180.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户87a7a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com