可视化数据科学平台在信贷领域应用系列七:自动机器学习(下篇)
在当今金融科技迅速发展的时代,自动机器学习(AutoML)逐步成为了信贷风控领域的重要工具。随着大数据和人工智能技术的进步以及信贷风险环境的快速变化,传统人工建模模式的时效性已经难以应对复杂多变的挑战。自动机器学习框架将数据预处理、特征工程、模型选择、模型训练、模型评估与模型部署等环节自动化,极大地提升了模型开发迭代的效率,并在一定程度上规避了人工操作风险。
在《可视化数据科学平台在信贷领域应用系列六:自动机器学习(上篇)》中,我们对自动机器学习(AutoML)的概念、优势以及在信贷风控中的应用进行了详细介绍。在本篇《可视化数据科学平台在信贷领域应用系列七:自动机器学习(下篇)》中,我们将聚焦于RapidMiner(AI Studio)这款领先的数据科学和机器学习平台,深入探讨其自动机器学习方面的特色功能,并通过实验数据实操演示RapidMiner(AI Studio)强大的自动机器学习特色功能。
1、RapidMiner(AI Studio)支持了哪些自动机器学习模块?
RapidMiner(AI Studio)作为一款功能强大的数据科学和机器学习平台,在AutoML方面的功能尤为突出。如我们前序文章所介绍,RapidMiner(AI Studio)在多个机器学习建模分析环节展示了其自动化和智能化的优势:
-
《系列一:数据探索》中介绍了RapidMiner(AI Studio)在数据探索环节的自动化特性。在选定待分析数据后,用户仅需设定必要的标签字段,RapidMiner(AI Studio)便可自动化地完成数据探索过程,包括缺失率、极限值占比等数据质量分析指标,最值、标准差等数理统计信息,以及变量分布图,自动化程度高、统计维度全面。
-
《系列二:数据清洗》中介绍的自动清洗(AUTO CLEANSING)模块可以自动对数据集执行数据清理操作,自动化地完成数据清洗工作,为机器学习建模做好数据准备。
-
《系列四:决策树策略挖掘》中介绍的RapidMiner(AI Studio)的Interactive Analysis模块具备高度自动化,仅通过两个参数设置步骤即可完成决策树自动化生成,高效助力组合规则策略发现。
RapidMiner(AI Studio)全面的自动化功能不仅覆盖了数据收集与预处理、数据探索分析、数据清洗等数据分析与模型开发前序准备环节,对模型开发全周期流程的自动化支持更是堪称强大,下面让我们来见识一下RapidMiner(AI Studio)强大的自动机器学习模块——Auto Model。

图1 Auto Model
2、RapidMiner(AI Studio)自动机器学习模块Auto Model
如图2,我们启动Auto Model模块后所见,用户可以直观了解到Auto Model模块的自动机器学习主要流程环节,加载数据、选择任务、设置目标变量、筛选入模特征、选择算法类型,最终得到整个自动机器学习全过程的分析报告和模型评估结果。

图2 Auto Model主要流程
首个环节,“Load Data”加载数据集,我们依然加载UCI台湾信用卡数据集进行实验。
第二个环节,“Select Task”选择本次学习任务的类型。如图3,RapidMiner(AI Studio)支持丰富的学习任务类型,包括预测(Predict)、聚类(Clusters)和异常检测(Outliers),这些任务在信贷风控、市场分析、欺诈检测等领域都有广泛的应用。

图3 选择学习任务类型
-
预测(Predict),预测任务主要涉及对特定目标进行预测,RapidMiner(AI Studio)在预测任务中提供了丰富的工具和算法,支持回归和分类两种预测类型。常见应用场景包括收入评估预测、违约概率预测和高价值客户分类等。
-
聚类(Clusters),聚类任务旨在将样本聚合为若干组,使得组内样本相似度高,组间样本相似度低。聚类在市场细分、客户群体分析等方面有重要应用。
-
异常检测(Outliers),异常检测用于识别数据中的异常或离群点,广泛应用于信贷反欺诈检测以及客户行为预警监测等场景。
回到我们的UCI台湾信用卡数据集,其学习目标是预测客户下个月的还款违约情况,所以这里我们选择“Predict预测”任务,随后设定要预测的目标变量,即“default.payment.next.month”,下一步就进入到“Prepare Target”环节,对目标变量进行设置。

图4 Prepare Target
如图4,RapidMiner(AI Studio)会为我们统计并展示出我们所设定目标变量的统计分布图,RapidMiner(AI Studio)支持更多分类任务的参数设定,包括类别数量、类别划分方式(等距、等频)、配置类别误判权重、最关注类别等设置,为模型目标变量设置提供了极大灵活性,用户在分类任务尤其是多分类任务的目标变量设置中的体验十分友好。
在信贷风控模型开发场景,通常我们还会获取到目标变量的原始参考字段为客户的逾期天数(如首期逾期天数或历史最大逾期天数),通过RapidMiner(AI Studio)自动机器学习的目标变量设置模块即可灵活加工二分类或多分类模型预测标签。

图5 Select Inputs
如图5,“Select Inputs”入模特征筛选环节较好的集成了Turbo Prep模块的良好使用体验。

图6 Model Types
完成特入模征筛选后,则进入到“Model Types”模型选择环节。如图6,用户可以按照所要完成的机器学习任务场景和模型算法的特点,自主选择模型类型,接下来自动执行模型训练和对比过程。支持的算法包括朴素贝叶斯、逻辑回归、决策树、随机森林、梯度提升树、支持向量机、深度学习等算法。如图7,RapidMiner(AI Studio)同样具备日期类型和文本类型字段的特征衍生、自动化特征筛选和自动化特征生成等功能。

图7 Data Preparation
自动学习训练的过程,任务进度、模型结果和评估结果可实时更新交互,用户可以随时查看和分析最新结果,用户体验显著提升。在自动机器学习过程执行完成以后,让我们来看一下自动机器学习全过程的分析报告和模型评估结果。

图8 自动机器学习模型训练结果概览
如图8,最直观的感受即是全面且直观的横向对比,用户可以以较短的时间掌握不同模型在不同评价指标下的预测性能和执行时效及排序,快速便捷地做出决策。
RapidMiner(AI Studio)对入模特征间的相关性、树模型的分支结构、特征重要性排序、也有强大的统计分析、可视化展示和交互性体验:
-
详细报告:生成详细的模型报告,包括各类评估指标、特征重要性和预测结果等。
-
图表展示:多种可视化图表,如ROC曲线、混淆矩阵、特征重要性表、提升度曲线、特征影响模拟图等,帮助用户直观理解模型效果。
-
交互式的可视化分析:交互式的可视化分析工具,让用户能够深入探索数据和模型运行逻辑,增强了互动体验。
3、RapidMiner(AI Studio) - Auto Model的优势与特色
-
支持多种机器学习任务,包括但不限于分类、回归、聚类和异常检测。这些任务在不同领域中有广泛应用,能够满足用户多样化的需求。
-
灵活的预测任务目标变量设置,便捷操作实现回归、二分类、多分类任务的目标变量加工,对多分类目标变量的加工更具特色,满足用户的个性化需求。
-
提供了丰富的机器学习算法,涵盖了从传统统计方法到先进的深度学习技术,包括传统统计学习算法、集成学习算法、深度学习算法及无监督学习算法等。
-
在保证高效率的自动化执行效率的前提下,用户仍保留必要的干预和控制空间,确保自动学习任务在用户的指引下进行。
-
提供全面、直观的实验结果展示,帮助用户深入理解掌握模型性能。
随着数据的复杂性和多样性提高,外部经济环境不断变化,给模型开发工作带来了巨大挑战,对风险模型专家及策略分析专家提出了更高要求。RapidMiner(AI Studio)提供的智能化和自动化的功能模块,有效地简化和标准化了模型开发流程。
本篇文章就到这里啦,欢迎大家关注我们,查看往期内容~ 我们下期内容再见!
关于 Altair RapidMiner
Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。
欲了解更多信息,欢迎关注公众号:Altair RapidMiner
相关文章:
可视化数据科学平台在信贷领域应用系列七:自动机器学习(下篇)
在当今金融科技迅速发展的时代,自动机器学习(AutoML)逐步成为了信贷风控领域的重要工具。随着大数据和人工智能技术的进步以及信贷风险环境的快速变化,传统人工建模模式的时效性已经难以应对复杂多变的挑战。自动机器学习框架将数…...
OpenGL Super Bible 7th-Primitives, Pipelines, and Pixels图元、渲染管线与像素
简介 本文的原版为《OpenGL Super Bible 7th》,是同事给我的,翻译是原文+译文的形势。文章不属于机器直译,原因在于语言不存在一一对应的关系,我将尽可能的按照中国人看起来舒服的方式来翻译这些段子,如果段子让你感到身心愉悦,那还劳烦点个关注,追个更。如果我没有及时…...
SpringBoot3.0更新后,IDEA创建SpringBoot2.x项目
首先创建新项目 然后Next Type选图中对应的即可,先在这里选择JavaVersion为17,然后等会去修改这个jdk的版本,然后Next 在选择springboot版本时发现还是没有2.x的版本,继续选择一个没有后缀名的版本先,这里选择3.3.0,至…...
Linux开发讲课8--- linux的5种IO模型
一、这里IO是什么 操作系统为了保护自己,设计了用户态、内核态两个状态。应用程序一般工作在用户态,当调用一些底层操作的时候(比如 IO 操作),就需要切换到内核态才可以进行 服务器从网络接收的大致流程如下࿱…...
什么是云主机?
云主机是新一代的主机租借服务,它整合了高性能服务器与优质网络带宽,有用处理了传统主机租借价格偏高、服务品良莠不齐等缺陷,可全面满意中小企业、个人站长用户对主机租借服务低本钱,高牢靠,易办理的需求。 关于大…...
力扣上的经典问题:接雨水
力扣上的经典问题:接雨水 在众多的编程题库中,力扣(LeetCode)是一个非常受欢迎的平台,拥有大量的算法和数据结构练习题。其中,接雨水(Trapping Rain Water)问题因其巧妙的思路和广泛…...
双例集合(二)——双例集合的实现类之HashMap容器类
双例集合的常用实现类有HashMap和TreeMap两个,通过这两个类我们可以实现Map接口定义的容器,一般情况下使用HashMap容器类较多。 HashMap容器类是Map接口最常用的实现类,它的底层采用Hash算法来实现,这也就满足了键key不能重复的要…...
oracle-定时器(job)
--1分钟运行一次定时任务。sysdate为了定时任务即可生效。 DECLARE JOB NUMBER; BEGIN DBMS_JOB.SUBMIT(JOB,P_HJZ_HJZ_PJ_DDYTKAPB_INIT_JOB;,SYSDATE,sysdate1/24/60); COMMIT; END; / select * from user_jobs; --删除 begin DBMS_JOB.broken (462, false); DBM…...
cron.timezone
系统 date 数据库 show timezone插件 show cron.timezonealter system set cron.timezonePRC;show cron.timezone...
Hadoop+Spark大数据技术(测试)
1、九九乘法表 在下面的单元格中编写Scala程序,输出上三角形的九九乘法表,并运行。 for (i <- 1 to 9 reverse) {for (j <- 1 to i) {print(s"$j x $i ${i * j}\t")}println() } 2、单词计数 在下面的若干单元格中编写Spark程序&#…...
使用新语法连接Qt 5中重载的信号和槽
在使用Qt 5中的新信号和槽连接语法(使用成员函数指针)时,我遇到了一些问题。根据新的信号槽语法的描述,我尝试将以下代码: QObject::connect(spinBox, SIGNAL(valueChanged(int)),slider, SLOT(setValue(int)));改为&…...
梯度提升决策树(GBDT)的训练过程
以下通过案例(根据行为习惯预测年龄)帮助我们深入理解梯度提升决策树(GBDT)的训练过程 假设训练集有4个人(A、B、C、D),他们的年龄分别是14、16、24、26。其中A、B分别是高一和高三学生&#x…...
路由器的Wi-Fi性能是否限制了你的网速?这里有你想要的答案
你的无线网络速度阻碍了你吗?信不信由你,升级到超快的互联网计划可能不值得。以下是如何判断路由器的Wi-Fi速度是否阻碍了你,以及你能做些什么。 如何测试你的Wi-Fi速度 比较你的有线速度和无线速度可以表明你的路由器是否阻碍了你。虽然很多人认为“Wi-Fi”和“互联网”…...
简站WordPress是最简洁好用易上手的wordpress企业建站主题
简站WordPress主题确实是一个非常简洁、好用且易上手的企业建站主题。以下是详细分析: 简洁性:简站WordPress主题采用了扁平化设计风格,界面简洁明了,这使得它在众多WordPress主题中脱颖而出。这种设计不仅美观,还能提…...
阿里云 debian10.3 sudo apt-get updat 报错的解决方案
阿里云全新的debian10.3(buster)镜像,却无法正常执行 sudo apt-get update。主要报错信息如下: Err:6 http://mirrors.cloud.aliyuncs.com/debian buster-backports Release404 Not Found [IP: 100.100.2.148 80] Err:3 http://mirrors.cloud.aliyuncs…...
vite中使用scss技巧
一、样式混合 1.普通用法 mixin flex() {display: flex;justify-content: space-around;align-items: center; }//使用方法 .legend_box_item {width: 50%;height: 10px;include flex; }2.传递参数,参数后面的值为默认值 mixin flex($justify: flex-start, $alig…...
PyQt5/Pyside2学习记录
前言 最近导师的项目要求是PyQt,现学现用,现在写下中间的一些注意事项。 本程序分为两个界面,要求两个界面能堆叠显示,一个首页界面,一个功能界面。在功能界面中,有三个操控的控件,下拉框、文本…...
记一次通过脚本来实现自定义容器的自动重启
通过脚本来实现自定义容器的自动重启 1. 场景还原2. 自定义启动脚本3. 使用自定义脚本来作为容器启动的脚本4. 制作自定义脚本作为入口点的新镜像5. 测试新镜像启动是否走自定义启动脚本 1. 场景还原 现在我有一个自定义的Docker镜像,是基于基础镜像来构建的带有多…...
基于Django、Bootstrap的电影推荐系统,算法基于用户的协同过滤算法,有爬虫有可视化后台
背景 基于Django和Bootstrap的电影推荐系统结合了用户协同过滤算法,通过爬虫技术获取电影数据,并在可视化后台展示推荐结果。该系统旨在提供个性化的电影推荐服务,帮助用户发现符合其喜好的电影。 用户协同过滤算法是一种常用的推荐算法&am…...
mysql、mariadb 登录主机的含义,如何修改登录主机,如何删除登录主机
MariaDB版本: 10.3.39 登录主机的含义: 参考 1 阿风说事:说世间百态、聊奇闻趣事,分享个人观点和独到见解 2 mysql授权localhost&%区别及一直授权错误解决办法(安装openstack有感) 3 ERROR 1396 (HY000): Operat…...
LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明
LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造,完美适配AGV和无人叉车。同时,集成以太网与语音合成技术,为各类高级系统(如MES、调度系统、库位管理、立库等)提供高效便捷的语音交互体验。 L…...
(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)
题目:3442. 奇偶频次间的最大差值 I 思路 :哈希,时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况,哈希表这里用数组即可实现。 C版本: class Solution { public:int maxDifference(string s) {int a[26]…...
【Linux】C语言执行shell指令
在C语言中执行Shell指令 在C语言中,有几种方法可以执行Shell指令: 1. 使用system()函数 这是最简单的方法,包含在stdlib.h头文件中: #include <stdlib.h>int main() {system("ls -l"); // 执行ls -l命令retu…...
使用分级同态加密防御梯度泄漏
抽象 联邦学习 (FL) 支持跨分布式客户端进行协作模型训练,而无需共享原始数据,这使其成为在互联和自动驾驶汽车 (CAV) 等领域保护隐私的机器学习的一种很有前途的方法。然而,最近的研究表明&…...
工程地质软件市场:发展现状、趋势与策略建议
一、引言 在工程建设领域,准确把握地质条件是确保项目顺利推进和安全运营的关键。工程地质软件作为处理、分析、模拟和展示工程地质数据的重要工具,正发挥着日益重要的作用。它凭借强大的数据处理能力、三维建模功能、空间分析工具和可视化展示手段&…...
OkHttp 中实现断点续传 demo
在 OkHttp 中实现断点续传主要通过以下步骤完成,核心是利用 HTTP 协议的 Range 请求头指定下载范围: 实现原理 Range 请求头:向服务器请求文件的特定字节范围(如 Range: bytes1024-) 本地文件记录:保存已…...
Android Bitmap治理全解析:从加载优化到泄漏防控的全生命周期管理
引言 Bitmap(位图)是Android应用内存占用的“头号杀手”。一张1080P(1920x1080)的图片以ARGB_8888格式加载时,内存占用高达8MB(192010804字节)。据统计,超过60%的应用OOM崩溃与Bitm…...
推荐 github 项目:GeminiImageApp(图片生成方向,可以做一定的素材)
推荐 github 项目:GeminiImageApp(图片生成方向,可以做一定的素材) 这个项目能干嘛? 使用 gemini 2.0 的 api 和 google 其他的 api 来做衍生处理 简化和优化了文生图和图生图的行为(我的最主要) 并且有一些目标检测和切割(我用不到) 视频和 imagefx 因为没 a…...
基于IDIG-GAN的小样本电机轴承故障诊断
目录 🔍 核心问题 一、IDIG-GAN模型原理 1. 整体架构 2. 核心创新点 (1) 梯度归一化(Gradient Normalization) (2) 判别器梯度间隙正则化(Discriminator Gradient Gap Regularization) (3) 自注意力机制(Self-Attention) 3. 完整损失函数 二…...
群晖NAS如何在虚拟机创建飞牛NAS
套件中心下载安装Virtual Machine Manager 创建虚拟机 配置虚拟机 飞牛官网下载 https://iso.liveupdate.fnnas.com/x86_64/trim/fnos-0.9.2-863.iso 群晖NAS如何在虚拟机创建飞牛NAS - 个人信息分享...
