基于决策树集成学习的车贷信用数据知识发现
发布时间:2023-11-11 07:53
近年来,随着互联网技术的发展,越来越多人接受并开始通过互联网平台实现生活中的各方面需求,其中包括学习、消费、金融、医疗等。在此环境下,作为一种金融科技的P2P汽车网贷也迅速崛起。而在P2P汽车网贷平台所形成的市场中,如何降低平台与资金方的风险成为学者们研究的热点。对于贷款人所提交的大量个人信息和征信信息,以及贷款产品的诸多信息汇总到一起,经人工审核最终形成贷款订单。这样巨大的信息量无形中加大了甄别贷款人真实情况以及做出放贷决策的复杂程度,但在大数据时代下,贷款订单所形成的庞大且高维度的数据集同时也成为了通过数据挖掘技术从中发现规律并进行预测的重要工具。为减小网贷平台与资金方放贷风险,降低网贷平台对高维度的贷款人信息进行甄别做出放贷决策的复杂度与人工成本,什么样的贷款人最终可获得平台全额批复贷款或是被拒绝,是本文的研究目的。本文使用美利车金融网贷平台2015-2018年部分贷款订单数据,引入分类与预测模型中决策树和随机森林算法,使用四种算法建模,对模型进行训练与测试,并在最后比较各模型性能,选择最优的算法发现并总结其中规律,给出科学的管理建议。研究结果表明:在算法层面上,CART算法产生...
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 选题背景及意义
1.1.1 选题背景
1.1.2 研究意义
1.2 国内外研究现状
1.3 研究内容及技术路线
1.3.1 研究内容
1.3.2 使用工具及技术路线
1.4 本文组织结构
2 研究方法概述
2.1 数据挖掘与数据预处理
2.1.1 数据挖掘理论概述
2.1.2 数据离散化
2.2 决策树算法
2.2.1 CART分类回归树
2.2.2 ID3算法
2.2.3 C4.5/C5.0算法
2.3 集成学习与随机森林
2.3.1 集成学习
2.3.2 Boosting与Bagging
2.3.3 随机森林
3 研究设计与数据预处理
3.1 研究设计
3.1.1 研究流程
3.1.2 数据来源
3.1.3 目标变量选取
3.1.4 自变量选取
3.2 数据预处理
3.2.1 数据清理
3.2.2 描述分析
3.2.3 数据离散化
3.2.4 数据变换
3.3 数据预处理结果汇总
4 知识发现及模型评估
4.1 模型度量指标
4.2 基于决策树的模型构建
4.2.1 使用CART算法建树
4.2.2 使用ID3算法建树
4.2.3 使用C5.0算法建树
4.2.4 使用随机森林建模
4.3 各模型性能比较
4.4 基于初次实验结果变量调整
4.4.1 变量调整
4.4.2 建模及结果
5 结论
参考文献
致谢
附录A 部分使用数据
附录B 建模算法代码
个人简介
本文编号:3862229
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 选题背景及意义
1.1.1 选题背景
1.1.2 研究意义
1.2 国内外研究现状
1.3 研究内容及技术路线
1.3.1 研究内容
1.3.2 使用工具及技术路线
1.4 本文组织结构
2 研究方法概述
2.1 数据挖掘与数据预处理
2.1.1 数据挖掘理论概述
2.1.2 数据离散化
2.2 决策树算法
2.2.1 CART分类回归树
2.2.2 ID3算法
2.2.3 C4.5/C5.0算法
2.3 集成学习与随机森林
2.3.1 集成学习
2.3.2 Boosting与Bagging
2.3.3 随机森林
3 研究设计与数据预处理
3.1 研究设计
3.1.1 研究流程
3.1.2 数据来源
3.1.3 目标变量选取
3.1.4 自变量选取
3.2 数据预处理
3.2.1 数据清理
3.2.2 描述分析
3.2.3 数据离散化
3.2.4 数据变换
3.3 数据预处理结果汇总
4 知识发现及模型评估
4.1 模型度量指标
4.2 基于决策树的模型构建
4.2.1 使用CART算法建树
4.2.2 使用ID3算法建树
4.2.3 使用C5.0算法建树
4.2.4 使用随机森林建模
4.3 各模型性能比较
4.4 基于初次实验结果变量调整
4.4.1 变量调整
4.4.2 建模及结果
5 结论
参考文献
致谢
附录A 部分使用数据
附录B 建模算法代码
个人简介
本文编号:3862229
本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/3862229.html