机器学习实战之模型的解释性:Scikit-Learn的SHAP和LIME库
概要
机器学习模型的“黑箱”困境
机器学习模型的崛起让我们惊叹不已!不论是预测房价、识别图片中的猫狗,还是推荐给你喜欢的音乐,这些模型都表现得非常出色。但是,有没有想过,这些模型到底是如何做出这些决策的呢?
作为一名Python爱好者,我们自然希望能够了解模型背后的原理。好消息是,SHAP和LIME这两个库能帮助我们!它们可以帮助我们揭示模型的内部结构,让我们能够更好地理解和优化模型。
一:SHAP值到底是什么?
SHAP(SHapley Additive exPlanations)是一种解释机器学习模型的方法,它基于博弈论中的Shapley值。Shapley值的核心思想是给每个特征分配一个贡献值,用以表示该特征对预测结果的影响程度。
1.1 SHAP值的计算方法
首先,我们需要安装shap
库:
!pip install shap
假设我们已经用Scikit-Learn训练好了一个模型model
。为了计算SHAP值,我们需要先初始化一个KernelExplainer
对象:
import shapexplainer = shap.KernelExplainer(model.predict, X_train)
然后就可以用shap_values
方法计算每个特征的SHAP值了:
shap_values = explainer.shap_values(X_test)
这样,我们就得到了每个特征对每个预测样本的贡献值。
1.2 用SHAP值分析模型
SHAP库提供了一些可视化方法,帮助我们更直观地分析模型。例如,我们可以用summary_plot方法来绘制SHAP值的总体情况:
shap.summary_plot(shap_values, X_test)
这张图展示了每个特征的SHAP值随着特征值的变化。从图中我们可以看出,不同特征对预测结果的影响程度有很大差异。
二:LIME如何揭示模型局部特性?
LIME(Local Interpretable Model-Agnostic Explanations)则是另一种解释机器学习模型的方法。它的主要思想是在每个预测样本周围建立一个简单的线性模型,从而帮助我们理解模型在局部的行为。
2.1 使用LIME分析模型
首先,我们需要安装lime
库:
!pip install lime
假设我们已经用Scikit-Learn训练好了一个模型model
。为了使用LIME,我们需要先创建一个LimeTabularExplainer
对象:
from lime.lime_tabular import LimeTabularExplainerexplainer = LimeTabularExplainer(X_train.values, feature_names=X_train.columns, class_names=['prediction'], verbose=True)
然后我们可以为某个预测样本生成LIME解释:
i = 42 # 随便选一个样本
exp = explainer.explain_instance(X_test.values[i], model.predict_proba)
最后,我们可以用show_in_notebook
方法将LIME解释可视化:
exp.show_in_notebook()
这样我们就可以看到一个简单的线性模型,展示了各个特征对预测结果的贡献。
2.2 LIME的局限性
虽然LIME能够帮助我们理解模型在局部的行为,但它也有一些局限性。例如,LIME依赖于一个简单的线性模型,可能无法很好地捕捉到复杂模型的特性。
三:SHAP与LIME的比较
既然我们已经了解了SHAP和LIME这两个库,那么自然会产生一个疑问:它们之间有什么区别,该如何选择呢?
3.1 二者的异同
首先总结一下它们的相似之处:
-
都能帮助我们解释机器学习模型;
-
都可以为每个特征分配一个贡献值;
-
都支持Scikit-Learn中的模型。
不同之处:
-
SHAP基于Shapley值,具有一定的理论基础;
-
LIME关注局部特性,用简单模型解释复杂模型;
-
SHAP可以捕捉到特征间的相互作用,而LIME不行。
3.2 如何选择?
虽然SHAP和LIME都有各自的优缺点,但总体来说,SHAP更具有理论基础,而且能捕捉到特征间的相互作用。因此,在大多数情况下,我们推荐使用SHAP库。但如果您对局部特性更感兴趣,那么LIME也是一个不错的选择。
技术总结
通过这些方法,我们可以更好地理解模型的内部结构,进而优化模型,提高预测准确率。最后,欢迎在评论区留言分享你的见解,告诉我们你是如何运用这些知识解决实际问题的!
相关文章:
![](https://img-blog.csdnimg.cn/45e87cbd4f3e4fa29dfc5b630c1cafc2.png)
机器学习实战之模型的解释性:Scikit-Learn的SHAP和LIME库
概要 机器学习模型的“黑箱”困境 机器学习模型的崛起让我们惊叹不已!不论是预测房价、识别图片中的猫狗,还是推荐给你喜欢的音乐,这些模型都表现得非常出色。但是,有没有想过,这些模型到底是如何做出这些决策的呢&a…...
![](https://img-blog.csdnimg.cn/img_convert/43c685c0a49a9abd6ca66c3d73a5b1b9.png)
Go 语言进阶与依赖管理 | 青训营
Powered by:NEFU AB-IN 文章目录 Go 语言进阶与依赖管理 | 青训营 语言进阶依赖管理测试 Go 语言进阶与依赖管理 | 青训营 GO语言工程实践课后作业:实现思路、代码以及路径记录 语言进阶 Go可以充分发挥多核优势,高效运行 Goroutine是Go语言中的协程…...
![](https://www.ngui.cc/images/no-images.jpg)
hyperf 十三 视图
教程:Hyperf composer地址:hyperf/view - Packagist 本次测试使用twig twig composedr地址:twig/twig - Packagist twig 文档地址:Home - Twig - The flexible, fast, and secure PHP template engine 一、安装 composer re…...
![](https://www.ngui.cc/images/no-images.jpg)
请你说说前端图形图像的框架
前端图形图像方面有许多强大的框架和库,使得开发者能够更容易地创建丰富的视觉效果和复杂的图形应用。下面列举了一些主要的框架和库: 1. Three.js Three.js 是一款运行在浏览器中的 3D 引擎,你可以用它创建各种三维场景,包括了…...
![](https://img-blog.csdnimg.cn/a76b2cb8ead94c4cbcb51fe139f41c35.png)
C++数据结构学习——栈
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、栈二、C语言实现1.声明代码2.实现增删查改代码3.测试代码 总结 前言 栈(Stack)是计算机科学中一种常见的数据结构,它是…...
![](https://img-blog.csdnimg.cn/e13f2cca67b44a8da551d87ca00d434f.png)
【C++笔记】C++之类与对象(下)
【C笔记】C之类与对象(下) 1、再看构造函数1.1、构造函数的初始化列表1.2、C支持单参数的构造函数的隐式类型转换1.3、匿名对象 2、Static成员2.1、为什么要有静态成员变量?2.2、一个类的静态成员变量属于这个类的所有对象2.3、静态成员函数 3、友元3.1、…...
![](https://www.ngui.cc/images/no-images.jpg)
管理类联考——英语——实战篇——大作文——图表——动态图表——整体效果
动态图表模板 What is clearly presented in the above 图表类型 is that dramatic changes have taken place in 主题词1 from 年份1 to 年份2.During the period, there was a marked jump from 数字1 to 数字2 in 事物1,while that of 事物2 declined significantly from 数…...
![](https://img-blog.csdnimg.cn/4a0338b7cdaa47d794cc160c3d15e663.png)
threejs纹理加载三(视频加载)
threejs中除了能把图片作为纹理进行几何体贴图以外,还可以把视频作为纹理进行贴图设置。纹理的类型有很多,我们可以用不同的加载器来加载,而对于视频作为纹理,我们需要用到今天的主角:VideoTexture。我们先看效果&…...
![](https://img-blog.csdnimg.cn/img_convert/ebc47c6e601408dafbfb4e7a0be4f5f5.png)
VUE笔记(三)vue的语法
一、计算属性 1、计算属性的概念 计算属性是依赖于源数据(data或者属性中的数据),在元数据的基础上进行逻辑运算后得到的新的数据,计算属性要依赖于源数据,源数据数据变化计算属性也会变化 2、计算属性的语法 在vue2中使用computed这个选…...
![](https://img-blog.csdnimg.cn/37b8fa718b1349109e9b9fbfbe5a34c7.png)
探讨uniapp的路由与页面生命周期问题
1 首先我们引入页面路由 2 页面生命周期函数 onLoad() {console.log(页面加载)},onShow() {console.log(页面显示)},onReady(){console.log(页面初次显示)},onHide() {console.log(页面隐藏)},onUnload() {console.log(页面卸载)},onBackPress(){console.log(页面返回)}3 页面…...
![](https://img-blog.csdnimg.cn/c39fdaae525641f48070dd34688360e1.png)
咸鱼之王俱乐部网站开发
我的俱乐部 最新兑换码 *注意区分大小写,中间不能有空格! APP666 HAPPY666 QQ888 QQXY888 vip666 VIP666 XY888 app666 bdvip666 douyin666 douyin777 douyin888 happy666 huhushengwei888 taptap666 周活动 宝箱周 宝箱说明 1.木质宝箱开启1个…...
![](https://www.ngui.cc/images/no-images.jpg)
Electron+Vue3+TS 打包exe客户端
Electron Vue3 TS 实战 - 掘金 如果报错loaderContext.getOptions is not a function ts-loader版本不一致导致的问题。 解决方案:npm install ts-loader8.0.0 --save...
![](https://img-blog.csdnimg.cn/b46a9d7ac7c64512924455b6b3175c37.png)
vue3范围选择组件封装
个人项目地址: SubTopH前端开发个人站 (自己开发的前端功能和UI组件,一些有趣的小功能,感兴趣的伙伴可以访问,欢迎提出更好的想法,私信沟通,网站属于静态页面) SubTopH前端开发个人站…...
![](https://www.ngui.cc/images/no-images.jpg)
能被整除的数(容斥原理)
思路: (1)需求:求对于1~n中至少能被p1~pm至少1个整除的数的个数,由于都是质数,彼此互质,不需要进行质因子分解,根据容斥原理, res n/p1 n/p2 ... n/pm - n /(p1p2) -…...
![](https://img-blog.csdnimg.cn/0a4277007c32428489eb45c6f5b9ba9e.png)
Modbus转Profinet网关与流量变送器兼容转ModbusTCP协议博图配置
首先,我们需要明确电磁流量计的通信协议是Modbus,而西门子1200PLC的通信协议是Profinet。这两种协议在功能和特性上存在一定的差异,因此需要使用兴达易控Modbus转Profinet网关设备进行转换。兴达易控的XD-MDPN100是Profinet转ModbusTCP的网关…...
![](https://img-blog.csdnimg.cn/3484e74afa6549e496088f0992298077.png#pic_center)
HLS实现CORDIC算法计算正余弦并上板验证
硬件:ZYNQ7010 软件:MATLAB 2019b、Vivado 2017.4、HLS 2017.4、System Generator 2017.4 1、CORDIC算法计算正余弦 CORDIC算法详细分析网上有很多资料,它的原理是用一系列旋转去逼近目标角度,这一系列旋转的角度为 θ a r c t…...
![](https://img-blog.csdnimg.cn/bd4b43a626ec415c8ac273ec45abd9cd.png)
高阶数据结构并查集
目录: 并查集的概念代码实现 LeetCode例题 并查集的概念 将n个不同的元素划分成一些不相交的集合。开始时,每个元素自成一个单元元素集合,然后按一定的规律将归于同一组元素的集合合并。在此过程中反复遇到查询某一个元素属于那个集合的运算…...
![](https://img-blog.csdnimg.cn/f2f93842c432457c8228c496ceea8c22.png)
WSL2连接不了外网怎么办?
某天忽然WLAN变成地球图标,上不了Internet,搞了半天网络适配器,仍然不行。回忆之前做过的操作,曾经运行过ZoogVPN,试着启动并连接,然后退出,WLAN神奇地恢复了连接,可以上Internet了。…...
![](https://www.ngui.cc/images/no-images.jpg)
【C/C++】探索内存对齐的奥秘与优势
目录 一,前言 二,什么是内存对齐? 三,内存对齐的原理 四,内存对齐的优势 五,如何实现内存对齐?(看这节就行) 1.使用 #pragma pack 来实现内存对齐的示例 七&#…...
![](https://www.ngui.cc/images/no-images.jpg)
leetcode分类刷题:滑动窗口(二、重复元素类型)
1、连续子数组、连续子串问题通常需要滑动窗口来求解,本篇文章对应的“二、重复元素类型”在此基础上对连续子数组、连续子串中重复元素个数、种类进行考察,此时,需要使用和维护哈希表进行左右指针的移动,因此这类题目对应的解法为…...
![](https://img-blog.csdnimg.cn/9cd1544f884c4665a1cc3b1d8861338c.png)
MySQL—buffer pool
一、buffer pool的介绍 Buffer pool是什么 一个内存区域,为了提⾼数据库的性能,数据库操作数据的时候,把硬盘上的数据加载到buffer pool,不直接和硬盘打交道,操作的是 buffer pool的数据,数据库的增删改查…...
![](https://www.ngui.cc/images/no-images.jpg)
《C和指针》笔记8: 枚举类型
枚举 (enumerated)类型就是指它的值为符号常量而不是字面值的类型,它们以下面这种形式声明: enum Jar_Type { CUP, PINT, QUART, HALF_GALLON, GALLON };这条语句声明了一个类型,称为Jar_Type。这种类型的变量按下列方式声明: e…...
![](https://img-blog.csdnimg.cn/f84f55b244044817a84be4552036dabe.png)
Python爬虫框架之Selenium库入门:用Python实现网页自动化测试详解
概要 是否还在为网页测试而烦恼?是否还在为重复的点击、等待而劳累?试试强大的Selenium!让你的网页自动化测试变得轻松有趣! 一、Selenium库到底是什么? Selenium 是一个强大的自动化测试工具,它可以让你直…...
![](https://www.ngui.cc/images/no-images.jpg)
docker swarm 部署服务网络问题
docker swarm 服务部署问题 docker swarm 部署服务时可能会出现,启动服务特别慢的情况,甚至一个service 启动后,容器会长时间处于 preparing 状态,直到 状态切换成 running 状态后,才会启动下一个service。然后查询资…...
![](https://www.ngui.cc/images/no-images.jpg)
1.00001git源码clone后进行编译(带调试)
– 新建用户 useradd postgres passwd postgres – 用户加入sude组 先cd到/etc/sudoers目录下 由于sudoers文件为只读权限,所以需要添加写入权限,chmod uw sudoers vim sudoers 找到root ALL (ALL) ALL这一行,在下一行加入username ALL (A…...
![](https://img-blog.csdnimg.cn/31bcaf9068074d84ad97987384a02a2c.png)
使用StorageClass动态创建pv
rook-ceph安装部署到位后,就可以开始来尝试使用StorageClass来动态创建pv了。 有状态的中间件在kubernetes上落地基本上都会用到StorageClass来动态创建pv(对于云上应用没有那么多烦恼,云硬盘很好用,但是对于自己学习和练习来说还…...
![](https://img-blog.csdnimg.cn/9f2633f8c30845caa3d06fda8146f357.png)
数据结构(Java实现)-ArrayList与顺序表
什么是List List是一个接口,继承自Collection。 List的使用 List是个接口,并不能直接用来实例化。 如果要使用,必须去实例化List的实现类。在集合框架中,ArrayList和LinkedList都实现了List接口。 线性表 线性表(lin…...
![](https://img-blog.csdnimg.cn/094aba52a8da48c9857a5a38e9517ad5.png)
性能优化维度
CPU 首先检查 cpu,cpu 使用率要提升而不是降低。其次CPU 空闲并不一定是没事做,也有可能是锁或者外部资源瓶颈。常用top、vmstat命令查看信息。 vmstat 命令: top: 命令 IO iostat 命令: Memory free 命令: 温馨提示:…...
![](https://img-blog.csdnimg.cn/f1166dc81db64294b4368179cf3ba7a9.png)
【C++】map的奇葩用法:和函数结合
2023年8月26日,周六下午 今天才发现map居然还能这样用... #include <iostream> #include <map> #include <functional>void printOne() {std::cout << "已经打印出1" << std::endl; }void printTwo() {std::cout <<…...
![](https://img-blog.csdnimg.cn/img_convert/08574069d4ac895f4fe50f16782d17d5.png)
广西奶茶加盟网站建设/seo推广
作者 | 阮一峰列表是一系列排列好的项目,主要分成两类:有序列表和无序列表。有序列表是每个列表项前面有编号,呈现出顺序,就像下面这样。1. 列表项 A2. 列表项 B3. 列表项 C无序列表则是列表项前面没有编号,只有一个列…...
![](https://img-blog.csdnimg.cn/62e4be569cf2492ea5a8c3c2b60ccf11.png)
模板网站设计报价/免费做网站网站的软件
本篇的思维导图: 正则表达式-re 模块 正则表达式(Regular Expression)是一种文本模式的描述方法。例如,\d是一个正则表达式,表示一位数字字符,即任何一位0到9的数字。 在 Python 语言中re 模块提供了全部的正则表达式函数,例如:compile 函数。 compile 函数 compile 函…...
![](/images/no-images.jpg)
wordpress免登录评论/如何网站关键词优化
身处大数据时代,各企业对云计算相关业务越来越依赖。各种服务器类型的市场需求也愈之加大,更多的虚拟机主机服务商转阵成服务器,当然不乏新踏入行业的新人。怎么才能做好业务,根据以往虚拟机的经验来说,选择一套管理系…...
![](/images/no-images.jpg)
wordpress 微信主体/深圳网站优化排名
在activiti中框架中。默认支持mysql/oracle/sqlserver等数据库,下面参考activiti的做法封装一套jdbc操作。 1、针对一张表的操作者,系统表的操作有以下几种 /*** <pre>* 针对一张表的操作者,系统表的操作有以下几种* 针对表本身的&am…...
青岛做网站的/营销 推广
本题解不一定正确,欢迎大家指正 A:2023 【问题描述】 请求出在 12345678 至 98765432 中,有多少个数中完全不包含 2023 。 完全不包含 2023 是指无论将这个数的哪些数位移除都不能得到 2023 。 例如 20322175,33220022 都完全不包…...
![](/images/no-images.jpg)
成都网站的建设/线上营销推广方案
容灾备份的等级 容灾备份是通过在异地建立和维护一个备份存储系统,利用地理上的分离来保证系统和数据对灾难性事件的抵御能力。 根据容灾系统对灾难的抵抗程度,可分为数据容灾和应用容灾。数据容灾是指建立一个异地的数据系统,该系统是对本地…...