当前位置:主页 > 经济论文 > 投融资论文 >

基于数据挖掘的个人网络信贷违约预警研究

发布时间:2020-09-15 11:43
   P2P网络借贷作为一种新型的普惠金融模式起源于欧美,在发展初期,由于实际数据的匮乏,学者们的将研究集中于金融服务、平台运营模式的介绍,直到美国P2P平台Prosper对外公开平台交易数据,学术界才有了丰富的研究资源,开始把目光放在P2P面对的最主要的风险问题--信贷违约问题。我国P2P行业起步较晚,仍需借鉴欧美国家的发展经验,目前国内P2P网络借贷的研究还停留在较浅层面,主要集中在P2P平台运营模式,行业监管和信贷违约的影响因素等等,鲜有通过数据挖掘方法建立个人信贷违约预警模型的研究。本文选择使用已经进入稳定发展期的美国P2P市场的网站数据进行实证研究,以期为投资者和P2P平台在如何有效规避信贷违约问题上提供一定的参考。本研究的主要目的是预测一笔贷款是否会违约,将个人信贷违约问题看作了一个二分类问题,选取了集成学习中以bagging算法为基础的随机森林算法建立预警模型,并以CART算法作为基学习器。使用的数据来源于美国P2P网站Prosper提供的2005-2014年的真实交易数据,共含有113,937个实例,81个属性。由于本研究关注的是已完成的贷款和违约贷款的区别,因此删除了数据集中贷款状态为进行中、销账和取消的数据,最终使用的数据集中违约贷款的比例约为10.8%。在分析了个人信贷违约形成的原因之后,从借款者基本信息、借款者经济信息、借款者信用历史和借款信息四个方面结合Prosper的实证数据分析个人信贷违约的影响因素,结果表明借款者的地理位置、工作类型、月收入和负债收入比,借款的原因和利率都对借款者是否会违约影响,特别的,借款者的拖欠账目数对违约的影响很大。在此基础上,通过特征选择方法,删除了识别能力差、和违约无因果关系的、重要性较低的变量,最终选取了24个指标组成个人信贷违约评价体系。以此评价体系在Prosper真实数据集上的实证结果表明,随机森林分类器与CART,LDA和LR分类器相比,获得了最高的查全率,说明随机森林的优势在于能够正确预测样本中的违约用户,更适合于个人信贷违约预警问题。此外,在个人信贷违约问题中,存在着严重的数据不均衡问题,从Prosper公布的数据来看,其贷款违约率保持在10%左右的较低水平,为了解决这个问题,使用加权随机森林(WRF)算法给予少数类更大的权重,增加其分类错误的代价。结果表明WRF算法将查全率提高到了62%,并且获得了最高的AUC分数和袋外分数,证明该模型不仅能正确预测违约用户,还有很高的泛化能力,可以在一定程度上帮助投资者进行投资决策,保护投资者的根本利益,使P2P网络借贷市场健康、稳定发展。
【学位单位】:吉林大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:F832.4
【部分图文】:

还款能力,违约风险,违约率,数据集中


对于经济发展水平较发达的东部地区来说,借款者对资金的运转和利用能力一般较高,相对的,其还款能力较强,该地区发生违约风险也就更小。图 3.1 给出了Prosper 数据集中不同地区的违约分布。可以看出,SC 州的违约率只有 3.9%。而 RI 州是其 4 倍,达到了 16.1%。

违约率,经济信息,收入水平,工作状况


2. 借款者经济信息①工作状况。包括工作类型和工作时长等因素。它们可以侧面反映出借款者的收入稳定性和收入水平。从图 3.2 来看,工作类型和工作时长与违约的相关性似乎比较低,这一点将在 3.3 节中进一步检验。有趣的是,工作类型为其他(other)的借款者,其违约率比没有工作(not employed)的人还要高。

支付能力,债务,比率,因素


图3.3月收入和负债收入比对违约的影响

【相似文献】

相关期刊论文 前10条

1 赵乌吉斯古楞;;数据挖掘的研究热点和发展趋势的浅谈[J];电脑知识与技术;2019年08期

2 王彬;;数据挖掘构成要素的侦查视角分析[J];河南警察学院学报;2019年02期

3 程志;张玉彤;贾彪;;远距离光纤通信传输故障数据挖掘方法[J];激光杂志;2019年04期

4 邵兴江;;数据挖掘在教育信息化中的应用空间分析[J];浙江现代教育技术;2004年03期

5 于春香;;数据挖掘技术简介[J];福建信息技术教育;2005年01期

6 周致丞;;大数据下一种规则的快速挖掘技术研究[J];河南科技;2018年25期

7 蔡萌萌;张巍巍;王泓霖;;大数据时代的数据挖掘综述[J];价值工程;2019年05期

8 张泽;吕新;侯彤瑜;;数据挖掘在农业信息化中的应用进展探析[J];信息记录材料;2019年01期

9 张俊杰;;恰当的水务大数据才符合数据挖掘的需求[J];城乡建设;2019年02期

10 周洋;;数据挖掘在电力调度自动化系统中的应用解析[J];科技创新与应用;2017年35期

相关会议论文 前10条

1 马钰超;;浅析大数据和数据挖掘及其在烟草行业中的应用[A];中国烟草学会2015年度优秀论文汇编[C];2015年

2 唐杰;梅俏竹;;数据挖掘学科发展研究[A];2012-2013控制科学与工程学科发展报告[C];2014年

3 王时光;;大数据时代规划数据挖掘的创新思考[A];新常态:传承与变革——2015中国城市规划年会论文集(04城市规划新技术应用)[C];2015年

4 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

5 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

6 许珂;姜山;;数据挖掘方法在科技产出分布可视化研究中的运用[A];第二届中国科技哲学及交叉学科研究生论坛论文集(硕士卷)[C];2008年

7 雷宇;;论行业信息资源的数据挖掘[A];中国烟草行业信息化研讨会论文集[C];2004年

8 吴以凡;吴铁军;欧阳树生;;面向生产过程质量控制的动态数据挖掘方法[A];05'中国自动化产业高峰会议暨中国企业自动化和信息化建设论坛论文集[C];2005年

9 彭怡;;从数据挖掘文章聚类分析看其发展趋势[A];现代工业工程与管理研讨会会议论文集[C];2006年

10 张建锦;刘小霞;;密度偏差抽样及其在海量数据挖掘中的应用[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年

相关重要报纸文章 前10条

1 陆天歌 王兆亮;数据挖掘:帮你读懂未来战争[N];解放军报;2018年

2 本报记者 戴丽昕;在人才工作中展现数据挖掘力量[N];上海科技报;2019年

3 本报记者 张佳星;把扎克伯格拉下水,大数据挖掘犯错了吗[N];科技日报;2018年

4 本报记者 张佳星;数据挖掘大战 机器怎么做到“见信如面”[N];科技日报;2018年

5 记者 张潇;打造数据挖掘领域的“响尾蛇模式”[N];西安日报;2018年

6 上海市浦东卫生发展研究院 孙雪松 王晓丽;数据挖掘在医学大数据研究中的应用[N];中国信息化周报;2018年

7 本报记者 叶曜坤;全国人大代表邓晓辉:推翻阻碍数据挖掘的“三座大山”[N];人民邮电;2017年

8 本报记者 牛福莲;贵州争夺“大数据挖掘”制高点[N];中国经济时报;2017年

9 中国联合商报记者 刘末;大数据挖掘 让金融业未来更加多彩[N];中国联合商报;2017年

10 南方日报记者 彭颖;日化巨头借力大数据挖掘线下市场[N];南方日报;2017年

相关博士学位论文 前10条

1 姜彦;正则化方法在数据挖掘中的应用与研究[D];湖南大学;2015年

2 马昱欣;结合可视化与数据挖掘的数据分析方法探究[D];浙江大学;2017年

3 李雄;单核苷酸多态性数据挖掘方法及其应用研究[D];湖南大学;2015年

4 董瑶;基于统计分析与数据挖掘的智能优化预测研究及应用[D];兰州大学;2015年

5 王达;时间序列数据挖掘研究与应用[D];浙江大学;2004年

6 马昕;粗糙集理论在数据挖掘领域中的应用[D];浙江大学;2003年

7 王立宏;信息系统的约简与粒度分析及其在数据挖掘中的应用[D];上海大学;2004年

8 杨虎;序列数据挖掘的模型和算法研究[D];重庆大学;2003年

9 李秋丹;数据挖掘相关算法的研究与平台实现[D];大连理工大学;2004年

10 李力;数据挖掘方法研究及其在中药复方配伍分析中的应用[D];西南交通大学;2003年

相关硕士学位论文 前10条

1 蔡楚华;基于数据挖掘的心脏疾病诊断研究[D];福州大学;2017年

2 高鹏;基于JBPM的大数据挖掘服务流程引擎的研究与实现[D];福州大学;2017年

3 顾海霞;数据挖掘在精准帮扶数据分析中的应用研究[D];贵州大学;2018年

4 郑张;数据挖掘在CDMA网络分析中的应用[D];福州大学;2017年

5 林志群;基于Spark MLlib统一数据挖掘服务平台的研究与实现[D];福州大学;2017年

6 朱小舟;数据挖掘方法在股票选择中的应用研究[D];对外经济贸易大学;2018年

7 张楠;基于数据挖掘的实时短文本处理技术的研究[D];中国电子科技集团公司电子科学研究院;2018年

8 李华;基于数据挖掘的消防电子生产企业客户关系管理研究[D];燕山大学;2018年

9 巩阳光;基于数据挖掘技术的金融数据分析系统设计与实现[D];湖北工业大学;2018年

10 余晓婧;基于数据挖掘的高速公路防逃费系统的设计与应用[D];湖北工业大学;2018年



本文编号:2818923

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/touziyanjiulunwen/2818923.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ebe28***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com