用ps做糖果店网站模板/产品推广计划方案
引言
信贷风险数据建模是金融机构在数据量日益庞杂的时代进行信贷业务风控的关键技术。它能够帮助机构更好地控制风险、减少违约损失,并提高业务效率。通过不断优化建模方法和利用建模工具,金融机构的风险控制能力得到了显著提升。
在本文中,一位来自国内头部互联网银行的零售信贷风险建模专家使用RapidMiner软件进行信用卡违约预测建模全过程。鉴于数据保密原则和法规,他选择了公开的UCI台湾信用卡数据集进行试验和演示。
让我们一起来看看他的最终试验过程和结论。
01、数据集简介
我们用到的数据集是UCI台湾信用卡数据集,它是一个由UCI维护的公开机器学习数据集,用于信用卡违约预测,该场景是信贷风控最常见的应用场景。该数据集由台湾的一家信用卡公司提供,包含 2005 至 2017 年期间客户的人口学统计特征、信用情况、信用卡还款、信用卡账单、信用卡付款等维度的数据,整个数据集包含30000条记录、25个字段。
先来认识一下数据集各字段的具体含义:
-
ID:客户ID;
-
LIMIT_BAL:信用额度,包含个人信用额度和家庭信用额度;
-
SEX:性别,1-男、2-女;
-
EDUCATION:教育水平,1-研究生、2-本科、3-高中、4-其他、0/5/6-未知;
-
MARRIAGE:婚姻状态,1-已婚、2-单身、3-其他;
-
AGE:年龄;
-
PAY_0:2005年9月的还款状态,-2-未消费、-1-按时还款、1-延迟1个月还款、2-延迟2个月还款,依次类推,8-延迟8个月还款、9-延迟9个月还款;
-
PAY_2~PAY_6:分别对应2005年8月至2005年4月的还款状态,特征码值同上;
-
BILL_AMT1~BILL_AMT6:分别为2005年9月至2005年4月每月的账单金额,即每月信用卡消费金额;
-
PAY_AMT1~PAY_AMT6:分别为2005年9月至2005年4月每月的付款金额,包括还账单金额和存入信用卡金额;
-
default_payment_next_month:目标变量,数据集的预测变量,变量含义为下个月还款违约情况,1-是-逾期、0-否-未逾期。
补充说明:
-
若PAY_AMT低于银行规定的最低还款额,则视为违约;
-
若PAY_AMT大于上月账单金额BILL_AMT,则视为正常还款;
-
若PAY_AMT大于最低还款额但低于上月账单金额,则视为延迟还款。
02、利用RapidMiner的Turbo Prep
模块进行数据探索分析
图1 - RapidMiner欢迎界面
启动RapidMiner 后,如图1,我们从Turbo Prep进入数据准备模块,该模块可完成数据探索分析、数据清洗和特征组合衍生等工作。
(1)数据概览
图2 - 数据导入
将已准备好的UCI台湾信用卡数据集导入。基于对数据集的认识,ID为客户ID、default_payment_next_month为目标变量,在“Format your columns”环节将以上两个字段的列属性分别调整为“id”和“label”。
图3 - 数据概览界面
完成导入,我们则会看到如图3所示的数据集概览。对于每一列数据,我们可以快速地查看分布直方图的缩略图、综合有效度线条、数据类型等概览信息。右键查看数据列详情,则可观测到更多的统计信息,如图4包括汇总信息如缺失率Missing、极限值占比Infinite、ID属性程度ID-ness、稳定性Stability、有效观测值占比Valid,统计信息最值、均值、标准差,以及粗略的变量分布图。
图4 - 数据列详细信息
(2)可视化探索
应用Turbo Prep的CHARTS图表来对数据进行交互式可视化。如图5所示,Turbo Prep支持十分丰富的图表类型,折线图、散点图、面积图、直方图、密度图、热图、饼图、帕累托图等均可完美支持。
图5 - Turbo Prep支持的图表类型
如图6,展示了按照EDUCATION教育水平进行分组后,对ID列进行计数统计,以饼图的形式展示了不同教育水平的分布占比。
图6 - 饼图
Turbo Prep的CHARTS图表功能使得数据可视化工作更加灵活高效,可帮助数据科学家更好的洞察数据模式,并进行有效的信息传递。
(3)数据透视
数据透视通过分组汇总和聚合分析,快速查看数据的趋势、模式和异常值。
图7 - 信用额度透视分析
图8 - 违约比例透视分析
例如我们想要观测在性别和婚姻状态的分组下,信用额度及信用卡违约情况是如何变化的。
如图7,“已婚”人士通常可获得更高的信用额度,“已婚男性”分组下平均信用额度最高,“其他男性”分组下平均信用额度最低。
如图8,无论男性还是女性,均为婚姻状态为“其他”分组下的违约比例最高,而且各婚姻状态下,男性的违约比例都要高于女性。
综合分析,在婚姻状态中,除“已婚”、“单身”,“其他”往往意味着离异或丧偶等婚姻状态,蕴含着潜在的经济不稳定性,所以金融机构给予“其他”客户以较低的信用额度,体现到逾期表现上违约比例也是最高的。
如何评价RapidMiner?
Altair RapidMiner作为一款强大的可视化数据科学计算平台产品,其在数据探索分析中的优势包括:
高易用性:从数据导入到单变量分析、图表分析、聚合透视分析,RapidMiner在操作上体现了较高的易用性,整个数据探索分析工作仅借助产品简洁的说明信息即可完成;
强大的图表可视化功能:RapidMiner强大的图表功能有效解决了数据探索分析的可视化工作,通过丰富的图表类型揭示数据的内在模式;
交互体验好:RapidMiner数据准备模块的PIVOT数据透视功能中,拖拉式操作、实时聚合计算、透视分析结果可视化展示,体现了极佳的交互体验。
——某互联网银行风控建模团队主管
如您对数据分析以及人工智能感兴趣,想要站在全球视野看待人工智能的发展,
那么,一定不要错过6月20日由Altair主办的全球线上会议“AI for Engineers”
会议将邀请全球知名专家与权威学者,共同探讨生成式人工智能(GenAI) 如何助力产品设计研发,
点击立即免费报名
关于 Altair RapidMiner
Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。
欲了解更多信息,欢迎访问:
www.altair.com.cn
相关文章:

可视化数据科学平台在信贷领域应用系列一:数据探索
引言 信贷风险数据建模是金融机构在数据量日益庞杂的时代进行信贷业务风控的关键技术。它能够帮助机构更好地控制风险、减少违约损失,并提高业务效率。通过不断优化建模方法和利用建模工具,金融机构的风险控制能力得到了显著提升。 在本文中,…...

SpringBoot发送Gmail邮件
1. 登录Gmail Gmail网址 点击右上角“小齿轮”,然后点击"查看所有设置" 点击“转发和 POP/IMAP”,按图中设置,然后点击保存: 2. 启用两步验证(https://myaccount.google.com/security) 登录上述网址,找…...

【小海实习日记】金融-现货以及合约理解
在股票和金融市场中,“单项持仓”和“双向持仓”是两个常见的概念,主要用于描述投资者在市场中的头寸及其策略。 单项持仓(单向持仓) 单项持仓是指投资者在市场中只持有一种方向的头寸(多头或空头)&#…...

html 添加元素如何能提升速度
在 HTML 中,如果你需要频繁地添加大量元素,需要确保你的操作能够以最佳性能进行。以下是一些有助于提高添加元素速度的方法: 综上所述,通过使用文档片段、innerHTML、虚拟滚动以及避免频繁的重排和重绘,你可以提高在 H…...

人工智能大模型的进化之路:探索如何让它们变得更“聪明”
一、引言 在人工智能(AI)领域,大模型凭借其强大的处理能力和广泛的应用前景,已经成为研究的热点。然而,尽管这些模型在多个领域展现出了惊人的能力,但它们仍然面临着理解力、泛化能力和适应性等方面的挑战…...

【设计模式深度剖析】【6】【结构型】【外观模式】| 以电脑开关按钮为例,并结合微服务架构的API网关加深理解
👈️上一篇:桥接模式 | 下一篇:享元模式👉️ 设计模式-专栏👈️ 目 录 外观模式(Facade Pattern)定义英文原文直译如何理解呢?字面理解代码实现中的理解生活案例:操作多功能料理机典型案例…...

2024拼多多 最新理论+实战干货,从入门到精通全链路多角度学习-7节课
基于最新规则理论结合实际的干货 课程内容: 01 2024年多多防比价新规则破局理论课与实操课.mp4 02 24年多多强付费第二节课基础内功.mp4 03 24年多多强付费第三节课直通车实操 .mp4 04 24年多多强付费第一节课市场定价格段,mp4 05 24年多多自然流第一节课市场…...

在Three.js中实现模型点击高亮:整合EffectComposer与OutlinePass的终极指南
效果【后期实现鼠标点击选中轮廓后给出一个弹窗显示相应的模型信息】 标签指示线参考我的上一篇文章 引言 Three.js不仅让WebGL的3D图形编程变得简单易懂,还通过其强大的扩展库支持丰富的后期处理效果,为3D场景增添无限魅力。本篇文章将引导您深入了…...

Webrtc支持HEVC之FFMPEG支持HEVC编解码(一)
一、前言 Webrtc使用的FFMPEG(webrtc\src\third_party\ffmpeg)和官方的不太一样,使用GN编译,各个平台使用了不一样的配置文件 以Windows为例,Chrome浏览器也类似 二、修改配置文件 windows:chromium\config\Chrome\win\x64 其他平台: chromium\config\Chrome\YOUR_SYS…...

高校实验室危险化学品及重大危险源安全管理系统
高校实验室危险化学品及重大危险源安全管理的重要性: 保障师生安全:通过严格管理,可以有效地降低这些风险,确保师生在实验室内的安全。 确保实验教学质量:良好的危化品管理能够确保实验材料的准确性和可靠性࿰…...

【Godot4自学手册】第四十一节背包系统(一)UI设置
各位同学,好久没有更新笔记了,今天开始,我准备自学背包系统。今天先学习下UI界面设置。 一、新建场景和结点 1.新建Node2D场景,命名为Inventory,保存到Scenes目录下,inventory.tscn。 2.新建TextureRect子…...

JS继承的方式
目录 原型链继承构造函数继承组合继承寄生组合继承ES6 Class 继承原型链继承 原理: 通过将子类的原型(prototype)设置为父类的一个实例,使得子类实例能够沿着原型链访问到父类的属性和方法。 function Parent() {this.parentProperty...

拓展虚拟世界边界,云手机可以做到吗
虚拟世界,AI,VR等词汇是21世纪最为流行的词汇,在科技背后,这些词汇的影响变得越来越大,已经走进了人们的世界,比如之前APPLE发布的vision pro,使人们能够更加身临其境的体验到原生os系统&#x…...

网络的功能和实现方法简介
网络的功能: 计算机网络是研究怎么样在两个端用户之间提供访问通路的。所以网络的功能是为网络上的任意两个端用户之间提供访问通路。 计算机通信的特点: 间歇性和突发性。即时而线路中没有信息流过,时而突来的大量数据需要迅速传输。为此计…...

npm有哪些插件包??
1.Web开发相关 Web开发相关的npm插件包涵盖了各种工具、框架和库,帮助开发人员简化开发流程、提高效率并实现更好的用户体验。以下是一些常见的Web开发相关的npm插件包及其功能: 1. webpack:一个现代的JavaScript应用程序的静态模块打包工具…...

SpringBoot基础篇
1:parent 目的:减少依赖配置 开发SpringBoot程序要继承spring-boot-starter-parentspring-boot-starter-parent中定义了若干个依赖管理继承parent模块可以避免多个依赖使用相同技术出现依赖版本冲突继承parent的形式也可以采用引入依赖的i形式实现效果…...

【java11】java11新特性介绍
Java11于2018年9月25日正式发布,Java11是继Java8之后的第一个LTS(Long-Term-Support)长期支持功能版本,与之前的版本(Java9和Java10)不同,它提供了长达3年的维护期,旨在提供稳定且长…...

搜维尔科技:介绍下Manus的OptiTrack 手套,体验精致的每指触觉!
搜维尔科技:介绍下Manus的OptiTrack 手套,体验精致的每指触觉! 搜维尔科技:介绍下Manus的OptiTrack 手套,体验精致的每指触觉!...

Element ui 快速入门(基础知识点)
element ui官网 前言: 在当今时代,我们在编写计算机程序时,不仅仅是写几个增删改查的简单功能,为了满足广大用户对页面美观的需求,为了让程序员们写一些功能更简便,提高团队协作效率,所以eleme…...

[数据集][目标检测]脑肿瘤检测数据集VOC+YOLO格式9787张3类别
数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):9787 标注数量(xml文件个数):9787 标注数量(txt文件个数):9787 标注…...

兆易创新:周期已至 触底反弹?
韩国那边来的数据啊,4月芯片库存同比下降33.7%,创近10年以来(最)大降幅,芯片出口同比增长53.9%,其中存储芯片出口额同比大幅增长98.7%,开启了涨价模式。沉寂一年多的存储芯片迎来了景气周期。 所…...

【分享】两种方法禁止修改Word文档
对于比较重要的Word文件,不想被随意编辑修改,可以试试以下两个方法,不清楚的小伙伴,一起来看看吧! 方法1:设置“只读方式” 我们可以给Word文档设置以“只读方式”打开,这样就算编辑修改了文档…...

藏品名称:龙凤呈祥摆件
藏品名称:龙凤呈祥摆件 规格:重约 14.3Kg 藏品类别:杂项 此器身布满繁缠纹饰。器表为一轮红日出于东方,照耀辽阔江海。红日旁边有两点黄金凸显其尊贵。一神龙首尾相接有祥云伴随,大山脚下栖息着一只凤凰与神龙遥相呼应。龙身和龙尾交接处有花和花蕊,花开富贵象征着吉祥。整个…...

Ubuntu server 24 (Linux) sudo 免输密码
1 sudo 使用要输入密码,费时费力。 2 sudo命令免输密码,需要修改/etc/sudoers文件 #本文以test用户为例,#允许不需要输入密码执行 sudo vi /etc/sudoers test ALL(ALL) NOPASSWD: ALL %sudo ALL(ALL:ALL) ALL --> #%sudo ALL(ALL:ALL) ALL#所有…...

Qt——控件
目录 概念 QWidget核心属性 enabled geometry WindowFrame的影响 windowTitle windowIcon qrc的使用 windowOpacity cursor font toolTip focusPolicy 编辑 styleSheet 按钮类控件 PushButton RadioButton CheckBox 显示类控件 Label textFormat pixm…...

6个迹象表明你的电脑电缆管理很糟糕,看下你有没有中招
清理电脑内部的电缆可能看起来像是徒劳的忙碌。毕竟,如果一切都正常,为什么还要麻烦呢?好吧,我有六个很好的理由可以说服你打开你的机箱,修复你电脑里的混乱。 你很难打开侧板 如果你的电缆离侧板的边缘太近,你将无法毫不费力地将它们滑开。虽然这不是你每天都要做的…...

代码随想录算法训练营第二十八天|LeetCode93 复原IP地址、LeetCode78 子集
题1: 指路:LeetCode93 复原IP地址 思路与代码: 对于这种暴搜出不来的就该用回溯了。对于一个合理的IP地址:有四个字串,每个字串的值的和在[0, 255]中即可(注意不可有前导0)。所以我们用一个计数器pointSum为给定字符…...

MongoDB CRUD操作:地理位置应用——通过地理空间查询查找餐厅
MongoDB CRUD操作:地理位置应用——通过地理空间查询查找餐厅 文章目录 MongoDB CRUD操作:地理位置应用——通过地理空间查询查找餐厅地图的扭曲搜索餐厅浏览数据查找当前邻居查找附近所有餐厅查找一定距离内的餐厅使用$geoWithin,不排序使用…...

从C++示例理解开闭原则
开闭原则要求我们在编写代码时,尽量不去修改原先的代码,当出现新的业务需求时,应该通过增加新代码的形式扩展业务而不是对原代码进行修改。 假如我们现在有一批产品,每个产品都具有颜色和大小,产品其定义如下…...

Java线程池execute和submit的区别
前言 ThreadPoolExecutor提供了两种方法来执行异步任务,分别是execute和submit,也是日常开发中经常使用的方法,那么它俩有什么区别呢? 语义不同 首先是语义上的不同。execute声明在Executor接口,它接受一个Runnable…...