可视化数据科学平台在信贷领域应用系列四:决策树策略挖掘
信贷行业的风控策略挖掘是一个综合过程,需要综合考虑风控规则分析结果、效果评估、线上实时监测和业务管理需求等多个方面,以发现和制定有效的信贷风险管理策略。这些策略可能涉及贷款审批标准的调整、贷款利率的制定、贷款额度的设定等,在贷款违约风险可控的前提下最大程度地提升银行的收益规模,确保银行的贷款业务能够稳健运营。
在信贷风控策略挖掘工作中,风控策略专家通常基于业务需求和业务经验,设计组合特征规则,该过程非常依赖策略专家对业务的理解和经验,过程往往非常耗时。逐渐地,基于决策树算法的策略挖掘方法体现出了其优越性。在面对高维度特征集时,基于决策树的自动化规则集策略挖掘的性能明显优于人工分析和设计,如此一来,策略专家只需要对自动挖掘得到的规则集进行检视和优化即可。
那么,如何实现自动化的决策树生成?拥有10余年经验的国内某互联网银行的风控模型主管给出答案。他在对数据的清洗、探索和特征组合加工后,这位模型专家又继续信贷风控策略的挖掘,这一期,他和小编雀跃的分享到“我只通过两个参数设置的步骤就完成了自动化的决策树生成,这对日常工作的提效是神助力”!让我们来看看他是如何实现的吧。
01、什么是“信贷风控策略挖掘”?
信贷风控策略挖掘是指通过对申请客户的信贷数据和行为数据进行深入分析和挖掘,以发现有效的信贷风险管理策略的过程。这些策略旨在识别和降低贷款违约和信用风险,确保银行的贷款业务能够健康稳健运营,并取得良好的收益率。
具体来讲,信贷风控策略挖掘通常包括以下主要环节:
1)数据收集和准备:首先,需要收集和整理与客户信贷业务相关的各类数据,包括个人基本信息、人行征信报告、消费支付信息、信贷历史行为等,这些数据将被用于后续的策略分析和挖掘。在完成数据收集之后,按照我们前序文章《数据清洗》所介绍的方法,对数据集进行预处理。
2)数据分析和特征工程:在完成数据清洗之后,需要对数据进行分析和处理。如前序文章《数据探索》和《特征组合》所介绍的内容,对数据集进行探索性数据分析、特征组合挖掘等步骤,提取有用的特征并准备用于策略挖掘的数据集。
3)规则集挖掘分析:需要选择适当的挖掘分析方法,得到的规则集需要在历史数据上进行验证和测试。
4)规则集部署与线上监测:挖掘得到的规则集在历史数据上取得了良好的表现,就需要将其部署至生产环境,进行无决策运行,即在实际业务中运行并观测效果。
5)风控策略制定:经过一定时间的线上运行,规则集的效果得到实际验证,并且积累了足够量的生产测试数据,策略人员根据业务要求,综合考量对业务规模和贷后风险水平的把控,将规则集制定为有效的风控策略。
02、运用决策树算法进行策略挖掘
决策树算法在诸多分类算法中,作为决策模型其整体分类性能并不出色,但是决策树的叶子节点的分类准确率却可以很高。我们应当利用好决策树的这个特点,提取决策树的叶子节点的分支规则,筛选识别准确率较高的叶子节点并结合节点判断逻辑的业务含义进行选定并使用。
深入分析,决策树算法为什么适合用于风控策略挖掘呢,其主要原因包括:
1)可解释性强:决策树算法生成的组合规则易于理解和解释,可以清晰地展示出影响决策的因素和决策逻辑,有助于业务人员和决策者理解规则的逻辑和预期。
2)灵活处理混合类型数据:决策树算法能够处理包含类别型特征和数值型特征的混合类型数据,不需要对数据进行特殊的编码或转换。
3)能够处理高维度特征数据:决策树算法具有较高的计算效率,能够处理大规模特征数据集,在实际应用中具有较好的可扩展性。
4)对异常值和缺失值具有鲁棒性:决策树算法对于异常值和缺失值具有较好的鲁棒性,不会对异常值和缺失值过于敏感,在一定程度上可处理异常缺失数据。
5)可量化评估特征重要性:通过决策树算法,可以计算各个特征在决策过程中的重要性,帮助策略人员了解哪些特征对于决策树预测的量化贡献最大,从而更好地理解业务特征数据。
6)易于调优和优化:决策树模型具有较多的参数可以调整,如树的深度、分裂节点的最小样本数和比例、节点分裂策略等,通过调整这些参数可以优化决策树的性能,使其更好地适应不同的业务场景和数据特点。
综上所述:决策树模型在风控策略挖掘中具有较好的可解释性、适用性和效率,因此被广泛应用于风控领域。
RapidMiner 的决策树策略挖掘功能非常好的提升用户的效率,其中,Interactive Analysis 模块的“交互式分析”功能尤为适合所有的用户利用这个工具提效。
03、RapidMiner 中的 Interactive Analysis 模块
Interactive Analysis 模块的“交互式分析”简明的步骤式引导大大提升了使用者的挖掘效率。
1)加载数据集 Load Data
如图1,为进入Interactive Analysis模块后的交互界面,选择数据集后,界面右侧会展示数据集概况,包括样本数、变量数、目标变量信息、字段名等。
图1 Interactive Analysis 模块数据加载
2)模型设置 Model Settings
图2 Interactive Analysis 模块模型参数设置
完成数据集加载之后,就来到决策树模型的参数设置步骤,Interactive Analysis 模块模型参数设置界面如图2所示。RapidMiner Interactive Analysis 支持多种分裂搜索方法,支持分裂增益度量方式设置。
RapidMiner Interactive Analysis 支持灵活的变量选择,并且可以直观展示候选变量在相关性 Correlation、ID 属性程度 ID-ness、集中度 Stability、缺失率 Missing、文本属性 Text-ness 共5个维度的程度,并综合给予可用性评价,十分方便策略人员进行特征筛选。
3)决策树生长参数设置
图3 Interactive Analysis 模块决策树生长参数设置
完成决策树模型参数设置,就来到决策树生长参数设置步骤,Interactive Analysis 模块模型参数设置界面如图3所示。我们将叶子节点的最小样本比例设置为1%,非叶子节点的最小样本比例设置为3%,一旦不满足以上规则,决策树则停止生长。
在执行完上述步骤后,即可开启自动化组合规则挖掘。
04、Interactive Analysis 模块实操决策树策略挖掘
下面我们使用 RapidMiner Interactive Analysis 模块在UCI 台湾信用卡数据集上来实操一下决策树策略挖掘工作。按照 RapidMiner 的操作指引,一次完成数据加载、模型参数设置、决策树生长参数设置,软件即可自动开启挖掘分析。
图4 树深度为2时的挖掘结果
我们首先讲决策树的深度设定为2,即仅通过一个变量对数据集进行划分,得到结果如图4。可见模型选择了变量 PAY_0(2005年9月的还款状态,-2-未消费、-1-按时还款、1-延迟1个月还款、2-延迟2个月还款,依次类推,8-延迟8个月还款、9-延迟9个月还款),且“PAY_0 = 2”和“PAY_0 >= 3”两个分支节点的目标变量占比要远远高于整体水平。
下一步我们再将决策树的深度设定为3,即通过最多两个变量组合的方式对数据集进行划分。如图5,RM挖掘得到了一个目标变量占比更高的分组组合规则1 :
“PAY_0=2 且 PAY_6 ∈ [2:8]”(业务含义为,客户在6个月前发生延迟2个月以上还款 且 上个月发生延迟2个月还款)。
如图6,RM 亦挖掘得到了一个目标变量占比远低于全局的分组组合规则2:
“PAY_0 = -2 且 PAY_AMT1 >= 5000”(业务含义为,上个月客户未消费且还账单金额和存入信用卡金额大于等于5000元)。
图5 树深度为3时的挖掘结果1
图6 树深度为3时的挖掘结果2
在策略应用层面,上述两个组合规则均具有较好的业务应用价值,且业务解释性较。组合规则1可设定为拒绝策略,组合规则2可作为优质客户筛选规则,为其设置利率优惠或额度提升策略
05、RapidMiner 在决策树策略挖掘中的优势与特点
使用体验下来,我总结了 RapidMiner 在决策树策略挖掘中三个特点:
第一,智能化、自动化。RapidMiner 的 Interactive Analysis 模块高度自动化,仅通过两个参数设置的步骤即可完成自动化的决策树生成。
第二,提高效率。在面对高维数据时,交互式决策树分析的性能明显优于人工策略设计挖掘,策略专家可将精力放在对规则集进行审查优化和筛选上。
第三,交互体验好,应用技术门槛低。RapidMiner 的Interactive Analysis 模块通过简易的操作步骤大大降低了策略挖掘的技术门槛,没有算法技术背景的产品专家或业务专家在 RapidMiner 的赋能下,亦可快速完成决策树策略分析挖掘工作。
本篇文章就到这里啦,感兴趣的朋友欢迎关注我们,查看往期内容~
如您对数据分析以及人工智能感兴趣,想要站在全球视野看待人工智能的发展,
那么,一定不要错过6月20日由Altair主办的全球线上会议“AI for Engineers”
会议将邀请全球知名专家与权威学者,共同探讨生成式人工智能(GenAI) 如何助力产品设计研发,
点击立即免费报名
关于 Altair RapidMiner
Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。
欲了解更多信息,欢迎访问:
www.altair.com.cn
相关文章:
可视化数据科学平台在信贷领域应用系列四:决策树策略挖掘
信贷行业的风控策略挖掘是一个综合过程,需要综合考虑风控规则分析结果、效果评估、线上实时监测和业务管理需求等多个方面,以发现和制定有效的信贷风险管理策略。这些策略可能涉及贷款审批标准的调整、贷款利率的制定、贷款额度的设定等,在贷…...
数据查询深分页优化方案
大家好,我是冰河~~ 最近不少小伙伴在实际工作过程中,遇到了单表大数据量分页的问题,问我怎么优化分页查询。其实,这就是典型的深分页问题。今天趁着周末,给大家整理一些在深分页场景的简单处理方案。 一、普通分页查…...
Redis的主从复制
Redis主从复制是 Redis 内置的⼀种数据冗余和备份⽅式,同时也是分发读查询负载的⼀种⽅法。通过主从复制,可以有多个从服务器(Slave )复制⼀个主服务器(Master )的数据。在这个系统中,数据的复制…...
网络安全实战基础——实战工具与攻防环境介绍
一、实战集成工具 1. 虚拟机 VMware Workstation:大家熟知的虚拟机 Virtual Box:开源免费、轻量级 2. Kali Linux 工具集 信息收集 Nmap:免费开放的网络扫描和嗅探包,可探测主机是否在线,扫描主机端口和嗅探网络…...
vue2组件封装实战系列之tag组件
作为本系列的第一篇文章,不会过于的繁杂,并且前期的组件都会是比较简单的基础组件!但是不要忽视这些基础组件,因为纵观elementui、elementplus还是其他的流行组件库,组件库的封装都是套娃式的,很多复杂组件…...
VBA实战(Excel)(4):实用功能整理
1.后台打开Excel 用于查数据,工作中要打开多个表获取数据再关闭的场景,利用此函数可以将excel表格作为后台数据库查询,快速实现客户要求,缺点是运行效率不够高。 Sub openexcel(exl_name As String)If Dir(addr, 16) Empty Then…...
nginx mirror流量镜像详细介绍以及实战示例
nginx mirror流量镜像详细介绍以及实战示例 1.nginx mirror作用2.nginx安装3.修改配置3.1.nginx.conf3.2.conf.d目录下添加default.conf配置文件3.3.nginx配置注意事项3.3.nginx重启 4.测试 1.nginx mirror作用 为了便于排查问题,可能希望线上的请求能够同步到测试…...
Android14 WMS-窗口添加流程(二)-Server端
Android14 WMS-窗口添加流程(一)-Client端-CSDN博客 本文接着上文"Android14 WMS-窗口添加流程(一)-Client端"往下讲。也就是WindowManagerService#addWindow流程。 目录 一. WindowManagerService#addWindow 标志1:mPolicy.checkAddPermission 标志…...
【传知代码】DETR[端到端目标检测](论文复现)
前言:想象一下,当自动驾驶汽车行驶在繁忙的街道上,DETR能够实时识别出道路上的行人、车辆、交通标志等目标,并准确预测出它们的位置和轨迹。这对于提高自动驾驶的安全性、减少交通事故具有重要意义。同样,在安防监控、…...
Edge浏览器十大常见问题,一次性解决!
Edge曾被称为最好用的浏览器,拳打Chrome脚踢firefox, 可如今却隐藏着像是播放卡顿、下载缓慢、广告繁多等诸多问题,不知道各位还在用吗? 今天小编收集整理了Edge浏览器十大烦人问题,并提供简单有效的解决办法,让你的E…...
lubuntu / ubuntu 配置静态ip
一、查看原始网络配置信息 1、获取网卡名称 ifconfig 2、查询网关IP route -n 二、编辑配置文件 去/etc/netplan目录找到配置文件,配置文件名一般为01-network-manager-all.yaml sudo vim /etc/netplan/01-network-manager-all.yaml文件打开后内容如下 # This …...
15、matlab绘图汇总(图例、标题、坐标轴、线条格式、颜色和散点格式设置)
1、plot()函数默认格式画图 代码: x0:0.1:20;%绘图默认格式 ysin(x); plot(x,y) 2、X轴和Y轴显示范围/axis()函数 代码: x0:0.1:20;%绘图默认格式 ysin(x); plot(x,y) axis([0 21 -1.1 1.1])%设置范围 3、网格显示/grid on函数 代码: …...
调试环境搭建(Redis 6.X 版本)
今儿,我们来搭建一个 Redis 调试环境,目标是: 启动 Redis Server ,成功断点调试 Server 的启动过程。使用 redis-cli 启动一个 Client 连接上 Server,并使用 get key 指令,发起一次 key 的读取。 视频可见…...
postgres数据库报错无法写入文件 “base/pgsql_tmp/pgsql_tmp215574.97“: 设备上没有空间
解决思路: base/pgsql_tmp下临时表空间不够 需要新建一个临时表空间指定到根目录之外的其他目录 并且修改默认临时表空间参数 解决方法: select * from pg_settings where name temp_tablespaces;mkdir /home/postgres/tbs_tmp CREATE TABLESPACE tbs_t…...
力扣2762. 不间断子数组
力扣2762. 不间断子数组 multiset法 multiset:元素从小到大排序 begin()返回头指针 (最小)rbegin()返回尾指针 (最大) class Solution {public:long long continuousSubarrays(vector<int>& nums) {int n nums.size();long long res 0;multiset<…...
OpenCV学习(4.8) 图像金字塔
1.目的 在这一章当中, 我们将了解图像金字塔。我们将使用图像金字塔创建一个新的水果,“Orapple”我们将看到这些功能: cv.pyrUp() , cv.pyrDown() 在通常情况下我们使用大小恒定…...
【TB作品】msp430f5529单片机,dht22,温湿度传感器,OLED显示屏
使用DHT22温湿度传感器和OLED显示屏的单片机项目 博客名称 利用MSP430单片机读取DHT22并显示温湿度 作品功能 本项目利用MSP430单片机读取DHT22温湿度传感器的数据,并将温湿度信息显示在OLED显示屏上。通过这个项目,您可以学习如何使用单片机与传感器…...
Kotlin 异常处理
文章目录 什么是异常抛出异常通过异常信息解决异常捕获异常 什么是异常 我们在运行程序时,如果代码出现了语法问题或逻辑问题,会导致程序编译失败或退出,称为异常。运行结果会给出一个一长串的红色字,通常会给出异常信息…...
nltk下载报错
捣鼓voice_clone时报错: 报错信息: mport nltk nltk.download(‘cmudict’)For more information see: https://www.nltk.org/data.htmlAttempted to load tokenizers/punkt/PY3/english.pickleSearched in: - ‘/home/zhangshuai/nltk_data’ - ‘/hom…...
Vulnhub-DC5
靶机IP:192.168.20.139 kaliIP:192.168.20.128 网络有问题的可以看下搭建Vulnhub靶机网络问题(获取不到IP) 信息收集 nmap扫下端口及版本 dirsearch扫下目录 LinuxphpNginx 环境 我们再去看前端界面,发现在contact界面有能提交的地方,但是经过测试不…...
pytorch 笔记:pytorch 优化内容(更新中)
1 Tensor创建类 1.1 直接创建Tensor,而不是从Python或Numpy中转换 不要使用原生Python或NumPy创建数据,然后将其转换为torch.Tensor直接用torch.Tensor创建或者直接:torch.empty(), torch.zeros(), torch.full(), torch.ones(), torch.…...
vue 创建一个新项目 以及 手动配置选项
【Vue】3.0 项目创建 自定义配置_vue3.0-CSDN博客...
c#快速获取超大文件夹文件名
c#快速获取超大文件夹文件名 枚举集合速度快:(10万个文件) //by txwtech IEnumerable<string> files2 Directory.EnumerateFiles("d:\aa", "*.xml", SearchOption.TopDirectoryOnly);//过滤指定查询xml文件 慢: var fi…...
华为OD技术面试-最小异或-2024手撕代码真题
题目:最小异或 给你两个正整数 num1 和 num2 ,找出满足下述条件的正整数 x : x 的置位数和 num2 相同,且 x XOR num1 的值 最小 注意 XOR 是按位异或运算。 返回整数 x 。题目保证,对于生成的测试用例, x 是 唯一确定 的。 整数的 置位数 是其二进制表示中 1 的数目。 示…...
基于SpringBoot+Vue单位考勤系统设计和实现(源码+LW+调试文档+讲解等)
💗博主介绍:✌全网粉丝1W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟 感兴趣的可以先收藏起来,还…...
Anaconda软件:安装、管理python相关包
Anaconda的作用 一个python环境中需要有一个解释器, 和一个包集合. 解释器: 根据python的版本大概分为2和3. python2和3之间无法互相兼容, 也就是说用python2语法写出来的脚本不一定能在python3的解释器中运行. 包集合:包含了自带的包和第三方包, 第三…...
pinia 重置状态插件
一、前言 测试提出,登出登录后,再次进入页面后。页面的查询项非初始状态。检查后发现,是因为查询项的值存到了store呢,从store中获取,故需要一个重置store的方法 二、pinia 查阅pinia官网后,发现pinia提…...
一千题,No.0049(跟奥巴马一起编程)
美国总统奥巴马不仅呼吁所有人都学习编程,甚至以身作则编写代码,成为美国历史上首位编写计算机代码的总统。2014 年底,为庆祝“计算机科学教育周”正式启动,奥巴马编写了很简单的计算机代码:在屏幕上画一个正方形。现在…...
《python程序语言设计》2018版第5章第46题均值和标准方差-上部(我又一次被作者的出题击倒)
第N次被作者打倒了,第5章46题解题上集的记录 计算均值的代码段 step_num 0num_c 0 pow_c 0 while step_num < 10:a eval(input("Enter number is: "))num_c apow_c pow(a, 2)step_num 1 t2 num_c / 10这个结果和书里的答案差一点。书里写的是…...
自己做的精灵图制作,图片合成,卓宠,窗口置顶,磁力链下载等工具软件
欢迎使用和提bug,才v1.0.2,有新奇的自己需要的功能可以提给我,我看看能不能做。 网站地址 github...
手机微信可以做网站吗/网络营销策划方案ppt模板
django-check-seo为 Django CMS 用户替换 Yoast 或 SEMrush 的部分功能。换句话说,django-check-seo 会告诉你你的网站 SEO 是否存在问题。同时,这些建议对很多搜索引擎都有效。安装如果你的网站是基于 django-cms 的,并且 Python 和 Django …...
武汉市中国建设银行网站/windows7优化大师
***********06. $(this).index() 失效****************************** 使用的库函数jquery 版本过低,1.4以上即可 ***********05. 加载图片后再加载相应的JS****************************** 01.$("").load(function(){...}); document.getElementByI…...
django做网站比较容易/深圳网络推广大师
声明使用的JDK9&Tomcat9版本; ① cookie的有效路径仅仅能被 其自身和其子路径访问; ② 当cookie的有效路径为 / 时候,web项目下所有的路径均可以访问到 cookie; 测试如下: 创建cookie: 访问 serv…...
不能制作网页的软件有哪些/windows优化大师是哪个公司的
我想在这里做些奇怪的事情。我需要从一个守护进程启动一个logcat进程,该守护进程将在后台运行并打印到终端,而无需控制stdin。它是用于记录日志的,因此理想情况下logcat将打印日志消息,同时仍允许用户输入标准命令并从Shell初始化…...
如何制作自己的网址链接/手机优化是什么意思
题目背景 盛况空前的足球赛即将举行。球赛门票售票处排起了球迷购票长龙。 按售票处规定,每位购票者限购一张门票,且每张票售价为50元。在排成长龙的球迷中有N个人手持面值50元的钱币,另有N个人手持面值100元的钱币。假设售票处在开始售票时…...
windows 没有wordpress/竞价网络推广培训
Step1. 注册账号注册地址:https://user.accesshub.cn/#/signUpStep2. 登陆管理控制台登陆方式一:在 https://user.accesshub.cn/#/loginTo 输入管理平台域名跳转到登陆页面登陆方式二:在浏览器直接输入管理平台域名地址登陆,例如 …...