可视化数据科学平台在信贷领域应用系列七:自动机器学习(下篇)
在当今金融科技迅速发展的时代,自动机器学习(AutoML)逐步成为了信贷风控领域的重要工具。随着大数据和人工智能技术的进步以及信贷风险环境的快速变化,传统人工建模模式的时效性已经难以应对复杂多变的挑战。自动机器学习框架将数据预处理、特征工程、模型选择、模型训练、模型评估与模型部署等环节自动化,极大地提升了模型开发迭代的效率,并在一定程度上规避了人工操作风险。
在《可视化数据科学平台在信贷领域应用系列六:自动机器学习(上篇)》中,我们对自动机器学习(AutoML)的概念、优势以及在信贷风控中的应用进行了详细介绍。在本篇《可视化数据科学平台在信贷领域应用系列七:自动机器学习(下篇)》中,我们将聚焦于RapidMiner(AI Studio)这款领先的数据科学和机器学习平台,深入探讨其自动机器学习方面的特色功能,并通过实验数据实操演示RapidMiner(AI Studio)强大的自动机器学习特色功能。
1、RapidMiner(AI Studio)支持了哪些自动机器学习模块?
RapidMiner(AI Studio)作为一款功能强大的数据科学和机器学习平台,在AutoML方面的功能尤为突出。如我们前序文章所介绍,RapidMiner(AI Studio)在多个机器学习建模分析环节展示了其自动化和智能化的优势:
-
《系列一:数据探索》中介绍了RapidMiner(AI Studio)在数据探索环节的自动化特性。在选定待分析数据后,用户仅需设定必要的标签字段,RapidMiner(AI Studio)便可自动化地完成数据探索过程,包括缺失率、极限值占比等数据质量分析指标,最值、标准差等数理统计信息,以及变量分布图,自动化程度高、统计维度全面。
-
《系列二:数据清洗》中介绍的自动清洗(AUTO CLEANSING)模块可以自动对数据集执行数据清理操作,自动化地完成数据清洗工作,为机器学习建模做好数据准备。
-
《系列四:决策树策略挖掘》中介绍的RapidMiner(AI Studio)的Interactive Analysis模块具备高度自动化,仅通过两个参数设置步骤即可完成决策树自动化生成,高效助力组合规则策略发现。
RapidMiner(AI Studio)全面的自动化功能不仅覆盖了数据收集与预处理、数据探索分析、数据清洗等数据分析与模型开发前序准备环节,对模型开发全周期流程的自动化支持更是堪称强大,下面让我们来见识一下RapidMiner(AI Studio)强大的自动机器学习模块——Auto Model。
图1 Auto Model
2、RapidMiner(AI Studio)自动机器学习模块Auto Model
如图2,我们启动Auto Model模块后所见,用户可以直观了解到Auto Model模块的自动机器学习主要流程环节,加载数据、选择任务、设置目标变量、筛选入模特征、选择算法类型,最终得到整个自动机器学习全过程的分析报告和模型评估结果。
图2 Auto Model主要流程
首个环节,“Load Data”加载数据集,我们依然加载UCI台湾信用卡数据集进行实验。
第二个环节,“Select Task”选择本次学习任务的类型。如图3,RapidMiner(AI Studio)支持丰富的学习任务类型,包括预测(Predict)、聚类(Clusters)和异常检测(Outliers),这些任务在信贷风控、市场分析、欺诈检测等领域都有广泛的应用。
图3 选择学习任务类型
-
预测(Predict),预测任务主要涉及对特定目标进行预测,RapidMiner(AI Studio)在预测任务中提供了丰富的工具和算法,支持回归和分类两种预测类型。常见应用场景包括收入评估预测、违约概率预测和高价值客户分类等。
-
聚类(Clusters),聚类任务旨在将样本聚合为若干组,使得组内样本相似度高,组间样本相似度低。聚类在市场细分、客户群体分析等方面有重要应用。
-
异常检测(Outliers),异常检测用于识别数据中的异常或离群点,广泛应用于信贷反欺诈检测以及客户行为预警监测等场景。
回到我们的UCI台湾信用卡数据集,其学习目标是预测客户下个月的还款违约情况,所以这里我们选择“Predict预测”任务,随后设定要预测的目标变量,即“default.payment.next.month”,下一步就进入到“Prepare Target”环节,对目标变量进行设置。
图4 Prepare Target
如图4,RapidMiner(AI Studio)会为我们统计并展示出我们所设定目标变量的统计分布图,RapidMiner(AI Studio)支持更多分类任务的参数设定,包括类别数量、类别划分方式(等距、等频)、配置类别误判权重、最关注类别等设置,为模型目标变量设置提供了极大灵活性,用户在分类任务尤其是多分类任务的目标变量设置中的体验十分友好。
在信贷风控模型开发场景,通常我们还会获取到目标变量的原始参考字段为客户的逾期天数(如首期逾期天数或历史最大逾期天数),通过RapidMiner(AI Studio)自动机器学习的目标变量设置模块即可灵活加工二分类或多分类模型预测标签。
图5 Select Inputs
如图5,“Select Inputs”入模特征筛选环节较好的集成了Turbo Prep模块的良好使用体验。
图6 Model Types
完成特入模征筛选后,则进入到“Model Types”模型选择环节。如图6,用户可以按照所要完成的机器学习任务场景和模型算法的特点,自主选择模型类型,接下来自动执行模型训练和对比过程。支持的算法包括朴素贝叶斯、逻辑回归、决策树、随机森林、梯度提升树、支持向量机、深度学习等算法。如图7,RapidMiner(AI Studio)同样具备日期类型和文本类型字段的特征衍生、自动化特征筛选和自动化特征生成等功能。
图7 Data Preparation
自动学习训练的过程,任务进度、模型结果和评估结果可实时更新交互,用户可以随时查看和分析最新结果,用户体验显著提升。在自动机器学习过程执行完成以后,让我们来看一下自动机器学习全过程的分析报告和模型评估结果。
图8 自动机器学习模型训练结果概览
如图8,最直观的感受即是全面且直观的横向对比,用户可以以较短的时间掌握不同模型在不同评价指标下的预测性能和执行时效及排序,快速便捷地做出决策。
RapidMiner(AI Studio)对入模特征间的相关性、树模型的分支结构、特征重要性排序、也有强大的统计分析、可视化展示和交互性体验:
-
详细报告:生成详细的模型报告,包括各类评估指标、特征重要性和预测结果等。
-
图表展示:多种可视化图表,如ROC曲线、混淆矩阵、特征重要性表、提升度曲线、特征影响模拟图等,帮助用户直观理解模型效果。
-
交互式的可视化分析:交互式的可视化分析工具,让用户能够深入探索数据和模型运行逻辑,增强了互动体验。
3、RapidMiner(AI Studio) - Auto Model的优势与特色
-
支持多种机器学习任务,包括但不限于分类、回归、聚类和异常检测。这些任务在不同领域中有广泛应用,能够满足用户多样化的需求。
-
灵活的预测任务目标变量设置,便捷操作实现回归、二分类、多分类任务的目标变量加工,对多分类目标变量的加工更具特色,满足用户的个性化需求。
-
提供了丰富的机器学习算法,涵盖了从传统统计方法到先进的深度学习技术,包括传统统计学习算法、集成学习算法、深度学习算法及无监督学习算法等。
-
在保证高效率的自动化执行效率的前提下,用户仍保留必要的干预和控制空间,确保自动学习任务在用户的指引下进行。
-
提供全面、直观的实验结果展示,帮助用户深入理解掌握模型性能。
随着数据的复杂性和多样性提高,外部经济环境不断变化,给模型开发工作带来了巨大挑战,对风险模型专家及策略分析专家提出了更高要求。RapidMiner(AI Studio)提供的智能化和自动化的功能模块,有效地简化和标准化了模型开发流程。
本篇文章就到这里啦,欢迎大家关注我们,查看往期内容~ 我们下期内容再见!
关于 Altair RapidMiner
Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。
欲了解更多信息,欢迎关注公众号:Altair RapidMiner
相关文章:
可视化数据科学平台在信贷领域应用系列七:自动机器学习(下篇)
在当今金融科技迅速发展的时代,自动机器学习(AutoML)逐步成为了信贷风控领域的重要工具。随着大数据和人工智能技术的进步以及信贷风险环境的快速变化,传统人工建模模式的时效性已经难以应对复杂多变的挑战。自动机器学习框架将数…...
OpenGL Super Bible 7th-Primitives, Pipelines, and Pixels图元、渲染管线与像素
简介 本文的原版为《OpenGL Super Bible 7th》,是同事给我的,翻译是原文+译文的形势。文章不属于机器直译,原因在于语言不存在一一对应的关系,我将尽可能的按照中国人看起来舒服的方式来翻译这些段子,如果段子让你感到身心愉悦,那还劳烦点个关注,追个更。如果我没有及时…...
SpringBoot3.0更新后,IDEA创建SpringBoot2.x项目
首先创建新项目 然后Next Type选图中对应的即可,先在这里选择JavaVersion为17,然后等会去修改这个jdk的版本,然后Next 在选择springboot版本时发现还是没有2.x的版本,继续选择一个没有后缀名的版本先,这里选择3.3.0,至…...
Linux开发讲课8--- linux的5种IO模型
一、这里IO是什么 操作系统为了保护自己,设计了用户态、内核态两个状态。应用程序一般工作在用户态,当调用一些底层操作的时候(比如 IO 操作),就需要切换到内核态才可以进行 服务器从网络接收的大致流程如下࿱…...
什么是云主机?
云主机是新一代的主机租借服务,它整合了高性能服务器与优质网络带宽,有用处理了传统主机租借价格偏高、服务品良莠不齐等缺陷,可全面满意中小企业、个人站长用户对主机租借服务低本钱,高牢靠,易办理的需求。 关于大…...
力扣上的经典问题:接雨水
力扣上的经典问题:接雨水 在众多的编程题库中,力扣(LeetCode)是一个非常受欢迎的平台,拥有大量的算法和数据结构练习题。其中,接雨水(Trapping Rain Water)问题因其巧妙的思路和广泛…...
双例集合(二)——双例集合的实现类之HashMap容器类
双例集合的常用实现类有HashMap和TreeMap两个,通过这两个类我们可以实现Map接口定义的容器,一般情况下使用HashMap容器类较多。 HashMap容器类是Map接口最常用的实现类,它的底层采用Hash算法来实现,这也就满足了键key不能重复的要…...
oracle-定时器(job)
--1分钟运行一次定时任务。sysdate为了定时任务即可生效。 DECLARE JOB NUMBER; BEGIN DBMS_JOB.SUBMIT(JOB,P_HJZ_HJZ_PJ_DDYTKAPB_INIT_JOB;,SYSDATE,sysdate1/24/60); COMMIT; END; / select * from user_jobs; --删除 begin DBMS_JOB.broken (462, false); DBM…...
cron.timezone
系统 date 数据库 show timezone插件 show cron.timezonealter system set cron.timezonePRC;show cron.timezone...
Hadoop+Spark大数据技术(测试)
1、九九乘法表 在下面的单元格中编写Scala程序,输出上三角形的九九乘法表,并运行。 for (i <- 1 to 9 reverse) {for (j <- 1 to i) {print(s"$j x $i ${i * j}\t")}println() } 2、单词计数 在下面的若干单元格中编写Spark程序&#…...
使用新语法连接Qt 5中重载的信号和槽
在使用Qt 5中的新信号和槽连接语法(使用成员函数指针)时,我遇到了一些问题。根据新的信号槽语法的描述,我尝试将以下代码: QObject::connect(spinBox, SIGNAL(valueChanged(int)),slider, SLOT(setValue(int)));改为&…...
梯度提升决策树(GBDT)的训练过程
以下通过案例(根据行为习惯预测年龄)帮助我们深入理解梯度提升决策树(GBDT)的训练过程 假设训练集有4个人(A、B、C、D),他们的年龄分别是14、16、24、26。其中A、B分别是高一和高三学生&#x…...
路由器的Wi-Fi性能是否限制了你的网速?这里有你想要的答案
你的无线网络速度阻碍了你吗?信不信由你,升级到超快的互联网计划可能不值得。以下是如何判断路由器的Wi-Fi速度是否阻碍了你,以及你能做些什么。 如何测试你的Wi-Fi速度 比较你的有线速度和无线速度可以表明你的路由器是否阻碍了你。虽然很多人认为“Wi-Fi”和“互联网”…...
简站WordPress是最简洁好用易上手的wordpress企业建站主题
简站WordPress主题确实是一个非常简洁、好用且易上手的企业建站主题。以下是详细分析: 简洁性:简站WordPress主题采用了扁平化设计风格,界面简洁明了,这使得它在众多WordPress主题中脱颖而出。这种设计不仅美观,还能提…...
阿里云 debian10.3 sudo apt-get updat 报错的解决方案
阿里云全新的debian10.3(buster)镜像,却无法正常执行 sudo apt-get update。主要报错信息如下: Err:6 http://mirrors.cloud.aliyuncs.com/debian buster-backports Release404 Not Found [IP: 100.100.2.148 80] Err:3 http://mirrors.cloud.aliyuncs…...
vite中使用scss技巧
一、样式混合 1.普通用法 mixin flex() {display: flex;justify-content: space-around;align-items: center; }//使用方法 .legend_box_item {width: 50%;height: 10px;include flex; }2.传递参数,参数后面的值为默认值 mixin flex($justify: flex-start, $alig…...
PyQt5/Pyside2学习记录
前言 最近导师的项目要求是PyQt,现学现用,现在写下中间的一些注意事项。 本程序分为两个界面,要求两个界面能堆叠显示,一个首页界面,一个功能界面。在功能界面中,有三个操控的控件,下拉框、文本…...
记一次通过脚本来实现自定义容器的自动重启
通过脚本来实现自定义容器的自动重启 1. 场景还原2. 自定义启动脚本3. 使用自定义脚本来作为容器启动的脚本4. 制作自定义脚本作为入口点的新镜像5. 测试新镜像启动是否走自定义启动脚本 1. 场景还原 现在我有一个自定义的Docker镜像,是基于基础镜像来构建的带有多…...
基于Django、Bootstrap的电影推荐系统,算法基于用户的协同过滤算法,有爬虫有可视化后台
背景 基于Django和Bootstrap的电影推荐系统结合了用户协同过滤算法,通过爬虫技术获取电影数据,并在可视化后台展示推荐结果。该系统旨在提供个性化的电影推荐服务,帮助用户发现符合其喜好的电影。 用户协同过滤算法是一种常用的推荐算法&am…...
mysql、mariadb 登录主机的含义,如何修改登录主机,如何删除登录主机
MariaDB版本: 10.3.39 登录主机的含义: 参考 1 阿风说事:说世间百态、聊奇闻趣事,分享个人观点和独到见解 2 mysql授权localhost&%区别及一直授权错误解决办法(安装openstack有感) 3 ERROR 1396 (HY000): Operat…...
c++ 设计模式 的课本范例
(1) 框架设计模式 model mode : 算法的框架不变,算法的细节可以改变。主要依赖多态。 class Player { protected:int life;int magic;int attack;virtual void effect_self() {}virtual void effect_enemy() {}virtual bool can_…...
QT中绘制点阵
1.QGraphicsScene,QGraphicsView,QGraphicsItem机制 #include <QApplication> #include <QGraphicsView> #include <QGraphicsScene> #include <QGraphicsEllipseItem>int main(int argc, char *argv[]) {QApplication app(arg…...
机器人里程计(Odometry)
机器人里程计(Odometry)是机器人定位和导航中的一个关键概念,它涉及到利用传感器数据来估计机器人在环境中的位置和姿态。里程计的基本原理是根据机器人自身动作的反馈来计算其相对于初始位置的位移。这通常包括机器人从一个已知位置开始&…...
后端实现预览pdf,mp4,图片
PDF预览 /*** pdf预览* param response*/RequestMapping(value "/preview")public void showPdf(HttpServletResponse response) {try {//String filePath this.getClass().getClassLoader().getResource("../../static/pdf/readme.pdf").getPath();Stri…...
【C++】数据类型、函数、头文件、断点调试、输入输出、条件与分支、VS项目设置
四、基本概念 这部分和C语言重复的部分就简写速过,因为我之前写过一个C语言的系列,非常详细。C和C这些都是一样的,所以这里不再一遍遍重复码字了。感兴趣的同学可以翻看我之前的C语言系列文章。 1、数据类型 编程的本质就是操作数据。 操…...
Spring框架的原理及应用详解(六)
本系列文章简介: 在当今的软件开发世界中,随着应用复杂性的不断增加和技术的快速发展,传统的编程方式已经难以满足快速迭代、高可扩展性和易于维护的需求。为此,开发者们一直在寻求更加高效、灵活且易于管理的开发框架,以帮助他们应对这些挑战。Spring框架就是在这样的背景…...
C++ | Leetcode C++题解之第151题反转字符串中的单词
题目: 题解: class Solution { public:string reverseWords(string s) {int left 0, right s.size() - 1;// 去掉字符串开头的空白字符while (left < right && s[left] ) left;// 去掉字符串末尾的空白字符while (left < right &…...
Leetcode 415. 字符串相加-大数相加
415. 字符串相加 - 力扣(LeetCode) class Solution {/**2024.6.17大数相加,从2个字符串最后一位开始加,如果没遍历到下标0,就一直遍历,减去‘a’得到数值,循环结束条件就是 字符串1遍历完了&am…...
IDEA集成Docker实现快捷部署
本文已收录于专栏 《运维》 目录 背景介绍优势特点操作步骤一、修改Docker配置二、配置Docker插件三、编写Maven插件四、构建Docker镜像五、创建Docker容器 总结提升 背景介绍 在我们手动通过Docker部署项目的时候,都是通过把打包好的jar包放到服务器上并且在服务器…...
五十四、openlayers官网示例LineString Arrows解析——在地图上绘制箭头
官网demo地址: LineString Arrows 这篇介绍了在地图上绘制箭头。 创建一个矢量数据源,将其绑定为draw的数据源并展示在矢量图层上。 const source new VectorSource();const vector new VectorLayer({source: source,style: styleFunction,});map.ad…...
新闻网站开发的论文/百度重庆营销中心
方便我快速对现有服务器环境进行配置。 基础 # 修改主机名 hostnamectl set-hostname # 更新存储库和软件包列表 sudo apt-get update && sudo apt-get upgrade腾讯云Ubuntu使用SSH密钥远程Root用户登陆 软件安装 如何在Ubuntu服务器上安装桌面(GUI&…...
黄石做企业网站/成人就业技术培训机构
本文转载自News BTC对CROSS的特别报道。以下为翻译的原文: 拍卖是财产权利转让的最古老方式之一。自从人类有了剩余价值的流动性需求,就有了拍卖这种方式。说到捡漏收藏界尽知的当属“明成化斗彩鸡缸杯”了。它的传承过程,似乎就是一部“拣大…...
织梦 和wordpress/淘宝关键词指数查询
1.点击如下链接进入下载jdk http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 按照提示安装成功!(很简单) 下载如图: 2.找到如图所示的目录(直到home,是bin的根目录)…...
上海网站建设app/无锡网站排名公司
LockSupport是什么? “用于创建锁和其他同步类的基本线程阻塞原语。 ”,对于JDK官方文档上的介绍,听起来并不好懂。 是对线程唤醒机制Wait/Notify机制的改良版,提供Park()和unPark()两个方法来阻塞线程和解除阻塞。 Wait/Notif…...
sketch网站花边怎么做/西安seo网站关键词优化
public class Binarytreedept { /** 输出二叉树最小深度 * 核心思想:根节点到达最近的叶子节点的路径长度。* 1、当根为空时,输出0。* 2、当左子树为空时,输出右子树深度1。* 3、当右子树为空时,输出左子树深度1。* 4、以上条件…...
中和阗盛工程建设有限公司网站/企业网站制作多少钱
Kubernets 中的Node, Pod,Replication Controller, Service 等都可以看作一种资源对象,这些资源几乎都可以通过使用Kubernetes提供的kubectl 工具执行增删改查,并将其保存在etcd中持久化储存。通过跟踪对比etcd库中保存的“资源预设状态”与当…...