银行信用卡风险大数据分析与挖掘

技术

picture.image

向AI转型的程序员都关注公众号 机器学习AI算法工程

使用excel数据挖掘功能完成

一、信用卡客户信用等级影响因素分析与挖掘

基于客户信用记录表

1. 数据预处理

浏览数据

客户等级占比,其中优质客户占比较少,风险客户很多,分析影响客户信用等级的原因

picture.image

年龄分布,为了方便挖掘,后续会重新标记为30岁以下,30-50,50岁以上

picture.image

婚姻状态,有一个离散值

picture.image

户籍分布,分为特别发达、一般和偏远

picture.image

教育程度,后续会重新标记为是否上过大学

picture.image

住房类型,其他影响挖掘,后续会当作离散值删除

picture.image

职业类别

picture.image

工作年限,将20年以上的标记为一类

picture.image

个人收入 收入差距太大了

picture.image

可以看到部分人的收入过高,部分人过低

picture.image

picture.image

保险缴纳

picture.image

车辆情况

picture.image

信用评分

picture.image

额度

picture.image

审批结果

picture.image

离群值清除

婚姻状态,选择将一个丧偶人士的数据清除

picture.image

picture.image

住房类型

picture.image

picture.image

重新标记

年龄 重新标记为低于30、30-50、大于50

picture.image

picture.image

户籍

picture.image

教育程度

picture.image

工作年限

picture.image

采用突出显示异常值处理

异常值报表

picture.image

异常值数据,共36条

picture.image

选择删除异常值

数据处理结果

picture.image

2. 数据挖掘

采用分类中决策树构建模型,判断信用卡客户信用等级影响因素,这里没有选择收入,是因为收入是连续值,所以我们判断的是除收入外最重要的影响因素

picture.image

picture.image

picture.image

picture.image

生成结果

picture.image

3. 挖掘结论分析与建议

决策树:

picture.image

分析及建议:

该模型用于预测客户的风险等级(A、B、C或D),基于几个关键特征:居住类型(自购房或租房)、年龄和教育程度。

从这个决策树中可以得出以下几点:

对于居住类型为“自购”的客户:

如果年龄小于30岁且教育程度为本科及以上,则风险等级为A的概率较高。

如果年龄大于等于30岁且教育程度为本科及以上,则风险等级为B的概率较高。

如果年龄大于等于30岁且教育程度为本科及以下,则风险等级为C的概率较高。

对于居住类型为“租”的客户:

如果年龄小于30岁且教育程度为本科及以下,则风险等级为C的概率较高。

如果年龄大于等于30岁且教育程度为本科及以下,则风险等级为D的概率较高。

如果年龄大于等于30岁且教育程度为本科及以上,则风险等级为C的概率较高。

基于这些信息,给出建议如下:

针对居住类型为“自购”的年轻高学历客户(年龄小于30岁且教育程度为本科及以上),他们可能具有较低的风险等级(A或B)。因此,对于这类客户,可以考虑提供更优惠的产品和服务,以吸引并保留他们。

相反地,针对居住类型为“租”且年龄较大、教育程度较低的客户(年龄大于等于30岁且教育程度为本科及以下),他们可能具有较高的风险等级(C或D)。因此,在与这类客户打交道时要更加谨慎,并采取相应的风险管理措施。

对于居住类型为“租”的年轻低学历客户(年龄小于30岁且教育程度为本科及以下),他们的风险等级也相对较高(C)。因此,需要对他们进行更多的关注和管理,以便及时发现潜在问题并采取相应措施。

依赖关系网络

picture.image

picture.image

图中可以看出,最强连接是居住类型,也就是客户是否有房

说明:以上分析均不考虑连续收入,因为连续数据实在不好重新标注,可以把它当成单独的重要因素进行挖掘

二、欺诈人口属性分析与挖掘(同样为不考虑收入因素)

基于消费历史记录表

  1. 数据预处理

picture.image

1.1 分析关键影响因素

picture.image

picture.image

picture.image

picture.image

根据表格中的数据,我们可以得到以下结论:

日均消费金额:当日均消费金额在7到12次之间时,欺诈的可能性更高(红色);而在5到7次之间时,欺诈的可能性较低(绿色)。

卡类别的影响:白金卡和金卡的欺诈可能性较低(绿色),而普卡的欺诈可能性较高(红色)。

客户号的影响:某些特定的客户号(999993847675和999993864022)有较高的欺诈可能性(红色)。

额度的影响:额度为100000的信用卡存在较高的欺诈可能性(红色)。

综上所述,银行或其他金融机构可以根据这些信息调整其风险管理策略。例如,对于日均交易次数较多、持有普卡、拥有特定客户号以及信用额度较大的账户,应加强监控和审核,以降低欺诈风险。同时,也可以通过提高安全措施、实施更严格的审批流程等方式来防范欺诈行为。

1.2 类别检测

picture.image

picture.image

类别1的用户主要进行小额交易,无论是单笔最小还是最大金额都很低。

用户的日均交易次数处于中等水平,表明他们是频繁但非过度使用者。

使用的卡片多为普通卡,可能意味着这些用户尚未达到升级卡级别的资格或需求。

所有记录都没有欺诈行为,这可能是因为这一类别的用户交易模式较为常规,不容易被标记为欺诈。

1.3 突出显示异常值

picture.image

选择删除异常值

  1. 数据挖掘

picture.image

picture.image

picture.image

picture.image

picture.image

决策树

picture.image

picture.image

picture.image

分析建议

通过这个决策树模型,我们可以看出日均交易次数和额度对欺诈行为的影响。具体来说,当日均交易次数较高(大于等于4次且小于6次),并且额度不是固定值10000元时,欺诈的可能性会增加。因此,银行或其他金融机构可以通过监控这类账户来提高风险预警能力,并采取相应的预防措施,如加强审核或设置更高的安全阈值。

此外,该模型也可以帮助我们了解欺诈行为发生的概率随日均交易次数和额度变化的趋势。例如,在日均交易次数较低(小于4次)或额度固定为10000元时,欺诈行为的概率较小。这有助于优化风控策略,比如设定不同的风险评估标准以适应不同的用户行为模式。

聚类

picture.image

picture.image

picture.image

picture.image

picture.image

通过这个图形,我们可以看到不同分类之间的差异。例如,分类1的用户似乎是最活跃的,他们不仅有最高的日均交易次数和日均消费金额,而且单笔消费的最大金额也最高。另一方面,分类3的用户额度最低,日均交易次数最少,且单笔消费的最大金额也最低。这可能表明分类1的用户是高价值客户,而分类3的用户可能是新用户或低活跃度用户。

picture.image

picture.image

分析与建议

要深入分析这些数据,我们需要知道每个分类的具体含义,例如,它们可能代表不同的用户群体,如新老用户、活跃度高低、信用评分等级等。有了这些额外信息,我们可以构建更精确的用户画像,从而制定更好的市场营销策略或风险管理政策。例如,对于分类1的用户,银行可能希望提供更多高端服务或优惠,而对于分类3的用户,则可能需要关注如何提升他们的活跃度和消费额。

一共聚类9个,关于其他类别的分析在这里不再详述。

三、excel数据挖掘总结

文章主要完成了两项重要任务:一是分析信用卡客户的信用等级影响因素,二是挖掘信用卡欺诈的人口属性特征。以下是具体总结:

首先,在信用等级影响因素分析方面,文章使用Excel数据挖掘功能处理了客户信用记录表,通过预处理数据、构建决策树模型和分析模型结果,得出了客户信用等级的主要影响因素。预处理阶段包括数据清理、变量转换和异常值处理。模型分析中,居住类型、年龄和教育程度被识别为决定客户信用等级的关键特征。例如,居住类型为自购房的年轻且受过高等教育的客户(年龄小于30岁,本科及以上)具有较低的风险等级(A或B)。相反,租房的、年龄较大且教育程度较低的客户(年龄30岁以上,本科以下)风险等级较高(C或D)。因此,文章建议银行为自购房的年轻高学历客户提供更优惠的服务,同时对租房的老年低学历客户采取更谨慎的风险管理策略。

其次,关于信用卡欺诈的人口属性分析,文章基于消费历史记录表进行了数据预处理和决策树建模。分析结果显示,日均消费金额、卡类别、特定客户号和额度是欺诈行为的关键影响因素。日均消费金额在7到12次之间欺诈可能性更高,普卡的欺诈可能性比白金卡和金卡高,特定客户号和大额度信用卡存在较高的欺诈风险。进一步的类别检测发现,类别1的用户主要进行小额交易,使用普通卡,没有欺诈行为。决策树模型揭示了欺诈行为与日均交易次数和额度的关系,指出日均交易次数高于4次且额度不固定为1万元时欺诈可能性增大。银行据此可以优化风控策略,对交易频繁、持有普通卡、特定客户号和大额度的账户加强监控。

在整个过程中,文章应用了数据预处理、异常值处理、决策树模型构建和分析、以及聚类分析等数据分析技术。通过对数据进行深入挖掘,银行能够优化信用卡风险管理和欺诈防控策略,提高风险预警能力和客户服务水平。文章强调了居住类型、年龄、教育程度、日均消费金额和额度对信用卡风险和欺诈行为的影响,为银行提供了一套实用的分析框架和策略建议。

测发现,类别1的用户主要进行小额交易,使用普通卡,没有欺诈行为。决策树模型揭示了欺诈行为与日均交易次数和额度的关系,指出日均交易次数高于4次且额度不固定为1万元时欺诈可能性增大。银行据此可以优化风控策略,对交易频繁、持有普通卡、特定客户号和大额度的账户加强监控。

在整个过程中,文章应用了数据预处理、异常值处理、决策树模型构建和分析、以及聚类分析等数据分析技术。通过对数据进行深入挖掘,银行能够优化信用卡风险管理和欺诈防控策略,提高风险预警能力和客户服务水平。文章强调了居住类型、年龄、教育程度、日均消费金额和额度对信用卡风险和欺诈行为的影响,为银行提供了一套实用的分析框架和策略建议。

****************************** 好书推荐 *******************

《深度学习与大模型基础》

欢迎评论和转发,随机抽取一名幸运读者赠书。

picture.image

通过有趣的 AI插画辅助学习增加学习趣味性,通过【原理输出】和【实操练习】助力学与练,从而解锁人工智能与大规模语言模型精髓。

内容简介

本 书以通

俗易懂的语言和有趣的插画来解释深度学习中的概念和方法 , 生动形象的插图更容易帮助读者理解和记忆。同时 , 书中指导读者将自己的理解制作成短视频 , 以加强学习效果。另外 , 书中还指导读者在 Colab 平台上进行实践。

本书内容全面 , 从基础的神经网络、 卷积神经网络、 循环神经网络等入门知识 , 到深度学习的应用领域如计算机视觉、 自然语言处理等高级主题都有涉及。

本书具有丰富的趣味性、 互动性和实践性, 可以帮助读者更好地理解深度学习知识, 并为未来的职业发展打下坚实的基础。

亮点:

打破传统说教,通过互动式学习加深理解。

有趣的 AI插画辅助学习,增添学习兴趣。

创新的【原理输出】和【实操练习】, 助力学与练。

借助 ChatGPT,点燃学习热情,解锁人工智能

与大规模语言模型精髓。

机器学习算法AI大数据技术

搜索公众号添加: datanlp

picture.image

长按图片,识别二维码


阅读过本文的人还看了以下文章:

整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主

《大语言模型》PDF下载

动手学深度学习-(李沐)PyTorch版本

YOLOv9电动车头盔佩戴检测,详细讲解模型训练

TensorFlow 2.0深度学习案例实战

基于40万表格数据集TableBank,用MaskRCNN做表格检测

《基于深度学习的自然语言处理》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

《深度学习:基于Keras的Python实践》PDF和代码

特征提取与图像处理(第二版).pdf

python就业班学习视频,从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源!CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

VGG16迁移学习,实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加: datayx

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 EB 级湖仓一体分析服务 LAS 的实践与展望
火山引擎湖仓一体分析服务 LAS 是面向湖仓一体架构的 Serverless 数据处理分析服务,提供一站式的海量数据存储计算和交互分析能力,完全兼容 Spark、Presto、Flink 生态,在字节跳动内部有着广泛的应用。本次演讲将介绍 LAS 在字节跳动内部的发展历程和大规模应用实践,同时介绍 LAS 在火山引擎上的发展规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论