可视化数据科学平台在信贷领域应用系列五:零代码可视化建模
信贷风控模型是金融机构风险管理的核心工具,在信贷风险管理工作中扮演着至关重要的角色。随着信贷市场的环境不断变化,信贷业务的风险日趋复杂化和隐蔽化,开发和应用准确高效的信贷风控模型显得尤为重要。信贷风险控制面临着越来越大的挑战和压力,也对风控模型的性能提出了更高的要求。
信贷风控模型对信贷业务的重要性不言而喻。风控模型综合评估申请客户的信用历史、财务状况以及行为数据等维度,进行量化分析和建模,以信用评分的形式量化申请人的逾期风险。拥有可靠的风控模型,金融机构便可科学地量化和管理信贷风险,从而有效控制信贷资产的风险水平,切实保障机构自身信贷业务的稳健运营。
随着数据科学和人工智能技术的不断发展,信贷领域风控模型的算法和建模技术也在不断创新和进步。算法层面从传统统计模型到机器学习模型,再到复杂的深度学习模型和当下流行的大模型技术,特征层面从基础业务逻辑特征到时序特征再到图谱深度关联特征,均不断提升信贷风控模型的精度和风险识别能力,为风险控制提供更强大的工具支持。
那么,如何高效构建信贷风控模型?
某互联网银行的风控模型主管本期为我们带来他的经验分享,让我们来看看他是如何“省力”工作的吧~
01、信贷风控模型是如何构建的?
在信贷风控模型的开发过程中,通常包括以下几个关键步骤:数据收集与探索、数据清洗、特征工程、模型选择、模型训练、模型评估与验证、模型部署与监控。
本系列的前序文章《数据探索》、《数据清洗》、《特征加工组合》已经对前三个环节进行了介绍,在完成探索性数据分析、数据清洗、特征组合挖掘等环节后,接下来就是信贷模型核心开发环节——包括模型选择、模型训练、模型评估与验证,以及评审通过后的模型部署和监控。
模型选择
信贷风控模型常用的模型包括逻辑回归、决策树、随机森林、梯度提升决策树(XGBoost、LightGBM等)等。在进行模型选择时,首先要掌握各个模型算法的自身特点以及优缺点,根据业务应用需求和样本数据的特点选择合适的模型来应用。
模型训练
模型类型选定后,就要在数据集上进行模型拟合训练,并结合训练数据进行模型参数调优,提高模型的预测能力、稳定性、解释性等性能指标。模型训练中的参数调优通常采用的方法有网格搜索(Grid Search)和随机搜索(Random Search),旨在通过系统地尝试不同的参数组合来找到最优的模型参数设置。还可以使用自动化的调参工具包如Hyperopt、Optuna等。另外,RapidMiner优秀的集成化平台产品可以自适应训练数据集,自动调整参数以提升模型性能,从而显著提高参数搜索和模型优化的效率。
模型评估与验证
在模型训练完成后,对模型进行评估和验证,以确保模型的准确性和稳定性。评估的数据集一般是提前预留的同时间分布的验证集和跨时间分布的测试集,评估指标通常包括KS、AUC、Gini、Lfit等。
模型部署与监控
最后是模型部署与监控,模型只有通过全面评估验证并通过评审后,则进行部署并投产上线使用。在模型部署后,还需要建立监控预警机制,对模型的预测评分及入模特征进行实时监控,并及时发现和处理监控异常的情况,以保证模型的稳定性和可靠性。
02、常用风控模型算法及应用场景
在信贷风控领域,有多种常用的模型算法,适用于不同的业务应用场景。
逻辑回归
逻辑回归是一种广泛使用的二分类(如违约与否、欺诈与否等)模型,可解释性强且稳定性高,至今依然是银行等金融机构最常用的模型之一。信用审批模型、反欺诈模型等二分类场景模型均可应用逻辑回归。
随机森林
随机森林是决策树集成衍生而来的模型算法,采用多棵决策树来拟合训练模型,在有效提升单决策树模型性能的同时,可以有效防止过拟合现象。随机森林的回归算法是收入评估模型的有效算法。
梯度提升决策树
梯度提升决策树(GBDT、XGBoost、LightGBM等),这类算法通过逐步添加弱预测模型来构建强预测模型,在处理复杂的非线性关系和挖掘特征交叉信息方面表现出色。在信贷风控中,非常适用于需要处理高维度数据、复杂数据关系和数据交互增益的任务。
神经网络
神经网络是一种模型结构复杂度极高具有海量参数的模型,可以挖掘学习到不同模态数据中的深层次模式。在信贷风控中,神经网络适用于处理大规模、高维度的数据,并识别其中的复杂模式和隐藏关系,也适用于深度特征挖掘的场景,以预测个人或企业违约的风险。
在实际的业务应用中,以上算法模型可以根据金融机构的业务需求、数据特点和业务应用需求进行选择和应用。
03、如何高效完成风控模型开发任务?
信贷领域风控模型的算法和建模技术在不断创新和进步,作为职场“螺丝钉”使用工具提效,不仅能解放自己的双手,更能为整个团队和项目助力提效,因此,找到一款好用且易上手的信贷建模工具是至关重要的。如全球知名的支付公司Paypal等支付反欺诈团队,这些高效率的团队都在运用工具去高效完成工作。
在此与大家分享介绍 Altair RapidMiner,它其不仅能帮助团队在数据探索、数据清洗、策略分析等方面辅助效率提升,在模型开发方面也是高效率自动化的好工具。除了接下来和大家分享的零代码可视化模型开发功能,它还有强大的自动机器学习功能,由于篇幅受限,我们在下一篇进行详细讲解。
所谓零代码可视化模型开发,即在设计画布上进行功能组件设计和连接,以整体的组件集合完成各项数据分析、模型训练和验证等任务。
对于产品新用户或者模型开发经验欠缺的用户来说,RapidMiner提供了十分友好的向导式模型开发模板,并且内置了面向不同业务场景的多种应用模板,用户可根据模板描述选择适合的模板开始,如图1所示。
图1 模板集合
图2 信用风险建模模板
我们选择Credit Risk Modeling模板,通过训练优化一个支持向量机模型实现信用违约风险预测。如图2所示,该模板通过在信用违约数据上训练支持向量机模型,优化其核心参数C和gamma,并对新数据进行模型打分,预测交易对手信用违约风险。该模板将模型训练过程分为5个模块,数据读取、数据集切分、参数优化与模型训练、模型预测、训练日志存储。最终,输出内容包括了优化日志、最佳模型和违约预测及其置信度。
基于向导的直观用户体验,使刚接触机器学习的用户也能够构建可用于生产的模型。
04、RapidMiner中支持哪些操作符(operator)?
如图3所示,RapidMiner提供了丰富的操作算子,涵盖了信贷模型开发的全流程环节,从数据集导入、数据准备、数据清洗到模型开发和模型验证。
图3 Operators分类
在RapidMiner的模Modeling操作符类别下,涵盖了丰富的模型算法,除了前文第2小节提到算法模型外,RapidMiner还支持kNN、贝叶斯、线性回归、线性判别分析、各种集成模型等预测算法,kMeans、DBSCAN多个聚类算法,关联分析算法等等。
此外,相关性分析、相似度分析、特征筛选、模型优化、时间序列等分组下的操作符使得用户的设计和模型开发工作更加便捷。
图4 Modeling Operators
05、RapidMiner 可视化建模的优势与特点
在体验了RapidMiner的画布设计模型开发后,再一次感受到了RapidMiner的强大,主要体现了以下几点优势:
(1)易用性:RapidMiner提供了友好的交互方式,学习成本较低,使模型开发人员可以轻松地借助RapidMiner进行模型开发工作,无需编写复杂的代码。
(2)全面性:RapidMiner拥有丰富的数据挖掘和机器学习算法库和操作算子,覆盖了建模分析和模型开发全流程的各个环节。
(3)可视化建模:RapidMiner提供的可视化建模功能,在设计画布上通过拖拽操作和操作符组件连接,模型开发人员可以简易直观地构建复杂的数据模型训练流程。
(4)社区支持和学习资源:RapidMiner拥有强大的用户社区支持和丰富的学习资源,来自用户社区的丰富扩展插件特点各异,模型开发人员可以通过技术社区交流获取帮助和支持。
总 结
一方面 RapidMiner 降低了模型开发分析的技术门槛,使得业务背景和低技术背景的业务产品专家也能通过建模分析辅助其决策。
另一方面,对于模型专家来说,利用 RapidMiner 高效率自动化地完成基础数据处理和分析工作,从而节省出更多的时间精力来对模型进行校验和优化,更多地投入需要人工深度参与的环节,发挥更大的业务价值。
RapidMiner 作为一款强大的数据科学平台,为用户提供了易用、全面、可视化的开发环境,同时具有强大的自动化、部署和集成能力,以及丰富的社区支持和学习资源,极大地提高了模型开发的效率和便捷性。
本篇文章就到这里啦,欢迎关注我们,查看往期内容。
若您对数据分析以及人工智能感兴趣,欢迎与我们一起站在全球视野关注人工智能的发展,与Forrester 、德勤、麦肯锡等全球知名企业共探AI如何加速制造进程,
共同参与6月20日由Altair主办的面向工程师的全球线上人工智能会议“AI for Engineers”。
点击立即免费报名
(注:现在注册参会,即可于会后第一时间获得Altair全球100个客户案例资料)
关于 Altair RapidMiner
Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。
欲了解更多信息,欢迎访问:
www.altair.com.cn
相关文章:
可视化数据科学平台在信贷领域应用系列五:零代码可视化建模
信贷风控模型是金融机构风险管理的核心工具,在信贷风险管理工作中扮演着至关重要的角色。随着信贷市场的环境不断变化,信贷业务的风险日趋复杂化和隐蔽化,开发和应用准确高效的信贷风控模型显得尤为重要。信贷风险控制面临着越来越大的挑战和…...
Windows 11广告植入“另辟蹊径”:PC Manager暗示若不使用必应搜索,你的系统可能需要“修复”
Edge浏览器近期增添了许多实用的新功能,如侧边栏、休眠标签页和沉浸式阅读器。话虽如此,浏览器中仍有一部分功能被部分用户视为“冗余软件”和不必要的累赘。 随着Windows 11用户逐渐习惯操作系统关键位置出现越来越多的广告,微软似乎正尝试以…...
一线教师教学工具汇总
亲爱的教师们!我们的教学工具箱里也该更新换代啦!今天,就让我来给大家安利一波超实用的教学神器: 百度文库小程序 —— 在线图书馆 百度文库,一个宝藏级的在线文档分享平台!在这里,你可以找到海…...
【数据结构】栈和队列-->理解和实现(赋源码)
Toc 欢迎光临我的Blog,喜欢就点歌关注吧♥ 前面介绍了顺序表、单链表、双向循环链表,基本上已经结束了链表的讲解,今天谈一下栈、队列。可以简单的说是前面学习的一特殊化实现,但是总体是相似的。 前言 栈是一种特殊的线性表&…...
一篇教会你CSS定位
前言:在网页布局的时候,我们需要将想要的元素放到指定的位置上,这个时候我们就可以使用CSS中的定位操作。 先让我们看一下本篇文章的大致内容: 目录 什么是定位 1.相对定位 2.绝对定位 3. 固定定位 4. 粘性定位 5. 定位层级…...
Hive的常规操作
Hive常规操作 hive常用交互命令 -e执行sql语句 [rootmaster ~]# hive -e "show databases";-f执行sql脚本 [rootmaster ~]# hive -f /usr/local/demo.sql查看hive中输入的所有命令 [rootmaster ~]# cat ~/.hivehistory操作库 创建库 语法: create…...
redis做为缓存,mysql的数据如何与redis进行同步呢?
让我们一步步来实现如何让MySQL数据库的数据和Redis缓存保持同步。想象一下,MySQL是一个大仓库,存放着所有重要的货物(数据),而Redis则像是一个快速取货窗口,让你能更快拿到常用的东西。为了让两者保持一致…...
【Map】集合总结
一、Map 之前学习的Collection集合体系是单列集合,即一次存取一个元素 Map是双列集合,一次存取一对元素,这一对儿称为键值对,key-value,且key是映射到value 所谓键映射到值,是指只能通过键找到值,无法通过值找键 Map中键不能重复!值允许重复 Map中一个键,只能对应一个值 Ma…...
SpringBoot实现发送邮件功能
目录 一、开启邮件服务 二、导入pom依赖 三、配置yml文件 四、发送邮件 4.1、发送文字邮件 4.2、发送html邮件 4.3、发送附件邮件 4.4、发送图片邮件 一、开启邮件服务 这里拿QQ邮箱举例。 翻到下面进行开启,之后获取授权码。 二、导入pom依赖 <dependency><…...
外观数列 ---- 模拟
题目链接 题目: 分析: 题目的意思如下:所以我们需要引用双指针来找到连续的字符有几个, 并添加到答案中, 接着将此字符添加到答案中, 让left right , 继续向后遍历整个字符串, 重复上面的操作将答案重新赋给字符串, 继续重复上述操作, 应该重复n - 1 次, 因为n为1的时候, 直…...
上心师傅的思路分享(二)
Druid monitor 与Springboot常见报错界面渗透小技巧 目录 前言 1.Druid monitor介绍 2.Druid未授权(1rank) 3.druid弱口令 4.Druid进一步利用 4.1 URL监控 4.2 Session监控 利用思路 EditThisCookie(小饼干插件) 5.SpringBoot Actuator未授权访问漏洞 5.1 简介 5…...
116页 | 2024年中国金融行业网络安全研究报告(免费下载)
以上是资料简介和目录,如需下载,请前往星球获取!!!...
基于fabric封装一个简单的图片编辑器(vue 篇)
介绍 前言vue demo版本react 版本 前言 对 fabric.js 进行二次封装,实现图片编辑器的核心功能。核心代码 不依赖 ui响应式框架vue ,react 都适用。 只写了核心编辑相关代码便于大家后续白嫖二次开发 核心代码我就没有打包发布 会 和 业务代码一起放到项目中。 vu…...
Linux中 .PHONY 和 all 在 Makefile 中的作用
1 .PHONY 和 all .PHONY 是 GNU make 工具中的一个特殊指令,用于指示某个目标是一个伪目标。伪目标并不对应于实际的文件,而是用来执行一系列命令的标识符。使用 .PHONY 的好处包括避免与现有文件同名造成的冲突,以及提高 make 的执行效率&am…...
Flutter 中的 FlexibleSpaceBar 小部件:全面指南
Flutter 中的 FlexibleSpaceBar 小部件:全面指南 Flutter 是一个由 Google 开发的跨平台 UI 框架,它提供了丰富的组件来帮助开发者构建高性能、美观的移动、Web 和桌面应用。在 Flutter 的组件库中,FlexibleSpaceBar 是一个与 SliverAppBar …...
每天一个数据分析题(三百五十四)-分析报表
分析报表的主要作用是通过可视化图表的形式将各种分析结果完整、准确地呈现给阅读者,帮助阅读者读懂数据,从而进一步发现数据背后隐藏的业务问题。下列说法正确的是? A. 静态报表的主要载体是电子表格工具 B. BI报表的数据源获取方式是应用…...
卫星通信频段有哪些
卫星通信使用到的频段涵盖L, S, C, Ku, Ka等,而最常用的频段是C(4~8GHz)和Ku(12~18GHz)频段,而Ka(27-40GHz)频段是后起之秀。目前地球赤道上空有限的地球同步卫星轨位几乎已被各国占满,C和Ku频段内的频率资源被大量使用,而Ka频段的…...
RobotMaster编程语言:深度探索与实践挑战
RobotMaster编程语言:深度探索与实践挑战 RobotMaster编程语言,作为机器人编程领域的一颗璀璨明珠,其独特性与复杂性吸引了无数探索者的目光。本文将从四个方面、五个方面、六个方面和七个方面深入剖析这一编程语言的奥秘,同时揭…...
Ascend训练软件栈了解
一.分布式大模型训练的完整流程及注意事项 1. 迁移分析 模型选取与约束说明 : 确保模型能在GPU或CPU上运行并获取性能基线,了解不支持场景,如DP模式、APEX库、bmtrain框架等。支持度分析 : 使用msFmkTransplt工具分析模型算子、…...
官网万词霸屏推广 轻松实现百度万词霸屏源码系统 带完整的安装代码包以及搭建教程
系统概述 官网万词霸屏推广源码系统是一款基于先进技术研发的综合性 SEO 工具。它的设计理念是通过智能化的算法和策略,帮助用户快速提升网站在百度等搜索引擎中的排名,实现大量关键词的霸屏效果。该系统整合了多种优化技术,包括关键词研究、…...
谷歌浏览器插件
项目中有时候会用到插件 sync-cookie-extension1.0.0:开发环境同步测试 cookie 至 localhost,便于本地请求服务携带 cookie 参考地址:https://juejin.cn/post/7139354571712757767 里面有源码下载下来,加在到扩展即可使用FeHelp…...
JavaSec-RCE
简介 RCE(Remote Code Execution),可以分为:命令注入(Command Injection)、代码注入(Code Injection) 代码注入 1.漏洞场景:Groovy代码注入 Groovy是一种基于JVM的动态语言,语法简洁,支持闭包、动态类型和Java互操作性,…...
ubuntu搭建nfs服务centos挂载访问
在Ubuntu上设置NFS服务器 在Ubuntu上,你可以使用apt包管理器来安装NFS服务器。打开终端并运行: sudo apt update sudo apt install nfs-kernel-server创建共享目录 创建一个目录用于共享,例如/shared: sudo mkdir /shared sud…...
Zustand 状态管理库:极简而强大的解决方案
Zustand 是一个轻量级、快速和可扩展的状态管理库,特别适合 React 应用。它以简洁的 API 和高效的性能解决了 Redux 等状态管理方案中的繁琐问题。 核心优势对比 基本使用指南 1. 创建 Store // store.js import create from zustandconst useStore create((set)…...
MongoDB学习和应用(高效的非关系型数据库)
一丶 MongoDB简介 对于社交类软件的功能,我们需要对它的功能特点进行分析: 数据量会随着用户数增大而增大读多写少价值较低非好友看不到其动态信息地理位置的查询… 针对以上特点进行分析各大存储工具: mysql:关系型数据库&am…...
定时器任务——若依源码分析
分析util包下面的工具类schedule utils: ScheduleUtils 是若依中用于与 Quartz 框架交互的工具类,封装了定时任务的 创建、更新、暂停、删除等核心逻辑。 createScheduleJob createScheduleJob 用于将任务注册到 Quartz,先构建任务的 JobD…...
第25节 Node.js 断言测试
Node.js的assert模块主要用于编写程序的单元测试时使用,通过断言可以提早发现和排查出错误。 稳定性: 5 - 锁定 这个模块可用于应用的单元测试,通过 require(assert) 可以使用这个模块。 assert.fail(actual, expected, message, operator) 使用参数…...
spring:实例工厂方法获取bean
spring处理使用静态工厂方法获取bean实例,也可以通过实例工厂方法获取bean实例。 实例工厂方法步骤如下: 定义实例工厂类(Java代码),定义实例工厂(xml),定义调用实例工厂ÿ…...
Nginx server_name 配置说明
Nginx 是一个高性能的反向代理和负载均衡服务器,其核心配置之一是 server 块中的 server_name 指令。server_name 决定了 Nginx 如何根据客户端请求的 Host 头匹配对应的虚拟主机(Virtual Host)。 1. 简介 Nginx 使用 server_name 指令来确定…...
相机Camera日志分析之三十一:高通Camx HAL十种流程基础分析关键字汇总(后续持续更新中)
【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了:有对最普通的场景进行各个日志注释讲解,但相机场景太多,日志差异也巨大。后面将展示各种场景下的日志。 通过notepad++打开场景下的日志,通过下列分类关键字搜索,即可清晰的分析不同场景的相机运行流程差异…...
