当前位置:主页 > 管理论文 > 货币论文 >

基于梯度提升决策树组合模型的二手车金融用户画像系统

发布时间:2023-08-26 05:58
  中国线上二手车交易起步较晚,且国内信用体系尚待完善。目前国内二手车的金融用户筛选主要使用规则模型系统,通过人工拨打电话,近期浏览内容等较为初级的手段判断用户的金融意向高低。该模型系统覆盖面小,适用条件生硬,服务效率低下,不能适应越来越频繁的业务变化,因此需要一个更加完善,更加高效的金融用户画像系统。针对现状,本文采用模型结构简单,非线性效果优良,可解释性高的梯度提升决策树(Gradient Boosting Decision Tree,GBDT),以及逻辑简单,执行迅速的逻辑回归(Logistic Regression,LR)模型的组合模型。通过分析挖掘用户在平台近段时间的浏览日志数据,预测未来一周内用户金融成交的概率。更加高效,更加全面的服务二手车用户。本文完成的主要工作如下:(1)海量数据处理与效率优化:使用Spark分布式集群进行数据处理,提升数据处理速度,避免本地内存占用。使用宽窄表转换,时间区间标志位,Spark常驻内存策略提升处理性能;(2)不均衡数据处理:提出一种新的基于业务逻辑的样本扩充方法,对稀少正样本进行扩充。对负样本则采用随机降采样,均衡正负样本比例;(3)特征工...

【文章页数】:92 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景与意义
    1.2 国内外研究进展
        1.2.1 大数据处理工具的发展
        1.2.2 不均衡数据处理的发展
        1.2.3 树模型的进展
    1.3 本文主要研究内容
    1.4 论文的结构安排
第2章 树模型和集成学习关键技术分析
    2.1 决策树模型
        2.1.1 决策树模型的概念
        2.1.2 决策树的三种算法及其原理
        2.1.3 决策树三种算法的对比
    2.2 集成学习
        2.2.1 集成学习概念
        2.2.2 Bagging算法原理(以基学习器为决策树举例)
        2.2.3 Boost算法原理(以前向分步算法举例,基学习器为决策树)
        2.2.4 梯度提升决策树的概念和算法原理
    2.3 梯度提升决策树和逻辑回归组合模型
    2.4 本章小结
第3章 金融用户画像系统的设计与实现
    3.1 引言
    3.2 数据处理与样本扩充
        3.2.1 Spark SQL简介
        3.2.2 数据清洗与处理
        3.2.3 基于userid+basetime的样本扩充
    3.3 特征工程与效率优化
        3.3.1 埋点特征处理
        3.3.2 价格特征处理
        3.3.3 时间效率优化
        3.3.4 空间效率优化
    3.4 模型构建
        3.4.1 GBDT模型的输入数据
        3.4.2 GBDT模型训练
        3.4.3 LR模型的输入数据
        3.4.4 LR模型训练
        3.4.5 GBDT+LR模型整体建模流程
    3.5 本章小结
第4章 模型效果与分析
    4.1 线上环境与数据
        4.1.1 线上环境
        4.1.2 线上数据
    4.2 模型A/B测试
        4.2.1 A/B测试的原理和意义
        4.2.2 A/B测试方案设计
    4.3 评价指标
    4.4 模型对比结果与分析
        4.4.1 第一阶段新旧模型对比分析
        4.4.2 第二阶段新旧模型对比分析
        4.4.3 新模型一二阶段对比
        4.4.4 整体分析
    4.5 本章小结
第5章 总结与展望
    5.1 总结
    5.2 展望
参考文献
致谢
作者简历及攻读学位期间发表的学术论文与研究成果



本文编号:3844087

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/huobilw/3844087.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户e9fdb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com