当前位置:主页 > 文艺论文 > 广告艺术论文 >

百度Feed用户行为数据仓库的设计与实现

发布时间:2022-12-18 03:39
  在信息智能化的时代,利用大数据并借助数据分析模型与分析算法,为用户提供个性化服务来增加用户对产品的依赖性已经成为了一种主流趋势。百度拥有庞大的用户量,通过用户行为日志分析用户兴趣爱好,为用户提供最适合的个性化服务已经成为百度服务宗旨。百度Feed流基于百亿用户数据,以人群属性、搜索意向、行为数据、兴趣爱好来了解用户行为,精确锁定用户需求。Feed流是百度2017年的重点业务,根据信息流广告在整个广告市场的增长势头,百度Feed流广告将成为新的增长点,Feed流业务给百度带来了巨大的经济效益。同时,伴随着Feed流成为百度的重点业务,为了进一步完善Feed流业务以及更好的了解用户需求,关于Feed流的各项分析业务也逐渐成型。针对Feed流用户行为日志数据管理与分析的重要需求,本文基于Hadoop平台进行Feed用户行为数据仓库的分析、设计、建模与实现,最终产出合理、规范的Feed用户行为数据仓库,该数据仓库主要提供了明细层基础数据和数据主题层数据。本论文首先分析了Feed的产品形态和建立数据仓库所需要的日志源,以及所建数据仓库的相关数据维度。其次,在数据仓库的架构层面和数据模型层面进行了... 

【文章页数】:64 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 课题背景及研究的目的和意义
    1.2 与本课题有关的国内外研究状况
    1.3 本文的主要研究内容
        1.3.1 本文的研究思路及拟达到的效果
        1.3.2 文章的框架结构
第2章 相关理论与技术概述
    2.1 数据仓库相关理论基础
        2.1.1 数据仓库的兴起
        2.1.2 数据仓库的特点
        2.1.3 经典数据仓库的结构体系
    2.2 HADOOP核心技术
        2.2.1 HDFS文件存储系统
        2.2.2 MapReduce计算模型
        2.2.3 Hive理论基础
    2.3 FEED流简单介绍
    2.4 本章小结
第3章 FEED用户行为数据仓库需求分析
    3.1 业务及数据流分析
        3.1.1 Feed产品形态分析
        3.1.2 Feed日志源分析
        3.1.3 Feed用户行为数据仓库数据流分析
    3.2 FEED用户行为数据仓库需求分析
        3.2.1 Feed用户行为数据仓库需求分析
        3.2.2 数据维度分析
    3.3 FEED用户行为数据仓库ETL分析
    3.4 课题实施所需的条件及关键技术分析
        3.4.1 课题实施所需的条件
        3.4.2 关键技术
    3.5 本章小结
第4章 FEED用户行为数据仓库设计
    4.1 FEED用户行为数据仓库架构设计
        4.1.1 Feed用户行为数据仓库架构设计
        4.1.2 手机百度端Feed基础数据大表ETL流程设计
        4.1.3 Wise首页端Feed基础数据大表ETL流程设计
        4.1.4 主题数据设计
    4.2 FEED基础数据表数据模型设计
        4.2.1 星形模式设计
        4.2.2 基础信息设计
        4.2.3 表结构设计
        4.2.4 存储设计
    4.3 本章小结
第5章 FEED用户行为数据仓库实现
    5.1 明细层数据的实现
        5.1.1 数据抽取
        5.1.2 数据转化和数据加载
        5.1.3 Feed基础数表创建
    5.2 数据主题层实现
    5.3 展现报表配置
    5.4 本章小结
第6章 FEED用户行为数据仓库的测试及运行
    6.1 测试方案
    6.2 基础数据大表的数据误差检验
    6.3 数据延迟测试
    6.4 测试结果与分析
    6.5 FEED用户行为数据仓库在线运行与应用
    6.6 本章小结
结论
参考文献
致谢
个人简历


【参考文献】:
期刊论文
[1]国库数据仓库的设计与实现[J]. 曾杰.  金融科技时代. 2016(04)
[2]基于统计方法的Hive数据仓库查询优化实现[J]. 王有为,王伟平,孟丹.  计算机研究与发展. 2015(06)
[3]ETL数据抽取研究综述[J]. 张瑞.  软件导刊. 2010(10)
[4]论数据仓库的数据架构设计[J]. 张曙明.  信息通信技术. 2009(06)
[5]病种分析主题数据仓库的建立[J]. 刘玉,陈金雄.  医学信息. 2008(12)
[6]实时数据仓库技术的研究[J]. 姜震,黄霞.  计算机系统应用. 2007(07)
[7]基于数据仓库的ETL技术研究[J]. 刘繁艳.  软件导刊. 2007(11)
[8]数据仓库架构研究[J]. 胡璟超,唐建雄.  软件导刊. 2007(09)
[9]数据仓库中ETL技术的探讨与实践[J]. 王克龙,王玲,王平立,宋斌.  计算机应用与软件. 2005(11)
[10]数据仓库与数据挖掘技术的研究与应用[J]. 王曙燕,耿国华,周明全.  计算机应用研究. 2005(09)

博士论文
[1]企业集团数据仓库系统关键技术研究[D]. 宋旭东.大连理工大学 2010

硕士论文
[1]仓储物流数据仓库的设计与实现[D]. 张耀丹.东华大学 2017
[2]法院数据仓库系统的设计与实现[D]. 王治国.中国科学院大学(工程管理与信息技术学院) 2016
[3]面向智慧城市的地理信息数据仓库系统设计与实现[D]. 周海鹏.中国科学院大学(工程管理与信息技术学院) 2014
[4]淘宝网数据平台数据仓库建设[D]. 陈新明.大连理工大学 2013
[5]一个商业银行数据仓库系统模型设计与实现[D]. 赵欢.复旦大学 2011
[6]银行CRM系统的数据仓库设计与实现[D]. 方国胜.华东师范大学 2008
[7]高校学院级面向用户的主题数据仓库的构建[D]. 李桂周.哈尔滨工业大学 2007
[8]气象数据仓库设计与实现[D]. 李仲龙.兰州大学 2007



本文编号:3721260

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/3721260.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户99c98***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com