人工智能与机器学习原理精解【27】
文章目录
- 集成学习
- 集成学习概述
- 集成学习的定义
- 集成学习的性质
- 集成学习的算法过程
- 集成学习的算法描述
- 集成学习的例子和例题
- Julia实现集成学习
- 集成学习数学原理
- 一、基学习器的生成
- Bagging(装袋法)
- Boosting(提升法)
- 二、基学习器的结合策略
- 平均法
- 投票法
- 学习法(Stacking)
- 三、集成学习的整体性能提升
- 参考文献
集成学习
集成学习概述
集成学习的定义
集成学习(Ensemble Learning)是一种机器学习范式,通过构建并结合多个学习器(也被称为基学习器或组件学习器)来完成学习任务。这些学习器可以是从同一种学习算法产生的同质学习器,也可以是从不同学习算法产生的异质学习器。集成学习的核心思想是“好而不同”,即基学习器应该具有好的性能,并且它们之间的预测结果应该具有差异性,以提高整体的泛化性能。
集成学习的性质
集成学习的主要性质包括:
- 多样性:基学习器之间的差异性是集成学习性能提升的关键。这种差异性可以通过不同的训练数据、不同的学习算法、不同的参数设置等方式来引入。
- 鲁棒性:集成学习通过结合多个学习器的预测结果,能够减少单一学习器因数据噪声或模型偏差带来的过拟合风险,从而提高模型的鲁棒性。
- 准确性:通过结合多个学习器的预测结果,集成学习通常能够获得比单一学习器更高的预测准确性。
集成学习的算法过程
集成学习的算法过程大致可以分为以下几步:
- 生成基学习器:使用一种或多种学习算法从训练数据中生成多个基学习器。这些基学习器可以是同质的,也可以是异质的。
- 结合基学习器:通过某种策略将基学习器的预测结果结合起来,得到最终的预测结果。常见的结合策略包括平均法、投票法和学习法(如Stacking)。
集成学习的算法描述
以Bagging和Boosting为例,简要描述集成学习的算法过程:
-
Bagging:
- 步骤:从原始训练集中通过有放回抽样得到多个训练子集;在每个训练子集上训练一个基学习器;最后通过投票或平均的方式结合基学习器的预测结果。
- 代表算法:随机森林(Random Forest),即Bagging与决策树结合的算法。
-
Boosting:
- 步骤:从原始训练集训练出一个基学习器;根据基学习器的预测结果调整训练样本的权重,使得预测错误的样本在后续训练中受到更多关注;基于调整后的样本权重训练下一个基学习器;重复上述过程,直到基学习器数目达到预设值;最后通过加权投票的方式结合基学习器的预测结果。
- 代表算法:AdaBoost、Gradient Boosting(包括GBDT和XGBoost)。
集成学习的例子和例题
例子:随机森林是一种集成学习算法,它通过构建多个决策树并将它们的预测结果进行投票或平均来得到最终的预测结果。随机森林在分类、回归等任务中都有广泛的应用。
例题:假设有一个二分类问题,使用随机森林算法进行分类。首先,通过有放回抽样从原始训练集中生成多个训练子集;然后,在每个训练子集上训练一个决策树作为基学习器;最后,通过投票的方式结合所有决策树的预测结果得到最终的分类结果。
Julia实现集成学习
在Julia中实现集成学习,虽然没有像Python的scikit-learn那样直接提供完整集成学习框架的库,但我们可以利用Julia现有的机器学习库,如MLJ,来构建集成学习模型。MLJ是一个灵活的机器学习库,它提供了许多算法和工具,可以用于实现集成学习。
以下是一个使用MLJ在Julia中实现简单Bagging集成学习的示例。这个示例将使用决策树作为基学习器,并通过Bagging的方式来结合它们。
首先,确保你已经安装了MLJ和相关的依赖库。你可以使用Julia的包管理器来安装它们:
using Pkg
Pkg.add("MLJ")
Pkg.add("MLJBase")
Pkg.add("MLJEnsembles")
Pkg.add("DecisionTree")
接下来,是实现Bagging集成学习的代码:
using MLJ
using MLJBase
using MLJEnsembles
using DecisionTree# 加载数据集(这里以iris数据集为例)
data = load_iris()
X = data.X
y = data.y# 划分训练集和测试集
train, test = partition(eachindex(y), 0.7, shuffle=true, rng=123)# 定义基学习器(这里使用决策树)
base_learner = DecisionTreeClassifier()# 定义Bagging集成学习器
bagging_model = BaggingEnsemble(base_learner=base_learner,n_estimators=10, # 使用10个基学习器sampling_fraction=0.8, # 每个基学习器使用80%的训练数据replace=true, # 有放回抽样rng=123 # 随机数种子
)# 训练集成学习器
fit!(bagging_model, X[train, :], y[train])# 评估集成学习器
predictions = predict(bagging_model, X[test, :])
accuracy = sum(predictions .== y[test]) / length(y[test])
println("Accuracy: ", accuracy)
请注意,这个示例代码可能需要根据你安装的MLJ和相关库的具体版本来进行调整。此外,MLJEnsembles库可能不直接包含Bagging的实现(这取决于库的发展情况),因此你可能需要自己实现Bagging的逻辑,或者查找其他可用的Julia库或资源。
如果你发现MLJEnsembles没有直接提供Bagging,你可以通过自己编写循环来训练多个基学习器,并使用投票或平均等方式来结合它们的预测结果。这通常涉及以下步骤:
- 对训练数据进行有放回抽样,生成多个训练子集。
- 在每个训练子集上训练一个基学习器。
- 对测试数据,使用每个基学习器进行预测。
- 结合基学习器的预测结果(例如,通过投票或平均)得到最终的预测。
在Julia中实现这些步骤需要一些编程技巧,但得益于Julia的高性能和灵活性,你可以根据自己的需求定制集成学习算法。
集成学习数学原理
一、基学习器的生成
集成学习的第一步是生成多个基学习器。这些基学习器可以是同质的(如都是决策树或都是支持向量机),也可以是异质的(如包含决策树和神经网络)。在生成基学习器时,不同的集成学习方法(如Bagging、Boosting)会有不同的策略。
Bagging(装袋法)
Bagging方法通过有放回抽样从原始训练集中生成多个训练子集,每个子集用于训练一个基学习器。由于是有放回抽样,每个子集可能包含重复的样本,也可能不包含某些原始样本。Bagging的主要目的是通过样本扰动增加基学习器之间的多样性。
Boosting(提升法)
Boosting方法则通过调整训练样本的权重来生成多个基学习器。在Boosting的每一轮迭代中,都会根据前一轮基学习器的预测结果来更新样本权重,使得预测错误的样本在后续轮次中受到更多的关注。通过这种方法,Boosting逐步将弱学习器提升为强学习器。
二、基学习器的结合策略
在生成多个基学习器后,需要采用某种策略将它们结合起来以得到最终的预测结果。常见的结合策略包括平均法、投票法和学习法(如Stacking)。
平均法
对于回归问题,通常使用平均法来结合基学习器的预测结果。平均法可以分为简单平均和加权平均。
-
简单平均:将各个基学习器的预测结果直接相加后求平均。数学公式为:
H ( x ) = 1 T ∑ i = 1 T h i ( x ) H(x) = \frac{1}{T} \sum_{i=1}^{T} h_i(x) H(x)=T1i=1∑Thi(x)
其中, H ( x ) H(x) H(x) 是最终的预测结果, T T T 是基学习器的数量, h i ( x ) h_i(x) hi(x) 是第 i i i 个基学习器的预测结果。
-
加权平均:为不同的基学习器分配不同的权重,然后将加权后的预测结果相加。数学公式为:
H ( x ) = ∑ i = 1 T w i h i ( x ) H(x) = \sum_{i=1}^{T} w_i h_i(x) H(x)=i=1∑Twihi(x)
其中, w i w_i wi 是第 i i i 个基学习器的权重,且满足 ∑ i = 1 T w i = 1 \sum_{i=1}^{T} w_i = 1 ∑i=1Twi=1。
投票法
对于分类问题,通常使用投票法来结合基学习器的预测结果。投票法可以分为绝对多数投票法、相对多数投票法和加权投票法。
- 绝对多数投票法:要求某标记的票数必须超过半数才能作为最终的预测结果。
- 相对多数投票法:预测为得票最多的标记,若同时有多个标记的票数最高,则随机选择一个。
- 加权投票法:类似于加权平均法,为不同的基学习器分配不同的权重,然后将加权后的票数相加。
学习法(Stacking)
Stacking是一种更复杂的结合策略,它通过将基学习器的预测结果作为新的特征,然后训练一个新的学习器来得到最终的预测结果。Stacking的数学公式可以表示为:
H ( x ) = g ( ϕ ( h 1 ( x ) , h 2 ( x ) , … , h T ( x ) ) ) H(x) = g(\phi(h_1(x), h_2(x), \ldots, h_T(x))) H(x)=g(ϕ(h1(x),h2(x),…,hT(x)))
其中, H ( x ) H(x) H(x) 是最终的预测结果, g g g 是新的学习器, ϕ \phi ϕ 是一个映射函数,用于将基学习器的预测结果映射到新的特征空间, h i ( x ) h_i(x) hi(x) 是第 i i i 个基学习器的预测结果。
三、集成学习的整体性能提升
集成学习的整体性能提升可以从偏差-方差分解的角度来解释。Bagging方法主要通过减少基学习器之间的方差来提升集成学习的性能,因为每个基学习器都是在有放回抽样得到的训练子集上训练的,所以它们之间的差异性较大。而Boosting方法则通过逐步调整训练样本的权重来减少基学习器之间的偏差,因为每个基学习器都是在前一轮基学习器的预测结果基础上进行训练的,所以它们之间的偏差会逐渐减小。
总的来说,集成学习的数学原理和公式涉及基学习器的生成、基学习器的结合策略以及集成学习的整体性能提升等多个方面。通过合理的基学习器生成策略和结合策略,集成学习可以获得比单一学习器更好的性能。
参考文献
- 文心一言
相关文章:
人工智能与机器学习原理精解【27】
文章目录 集成学习集成学习概述集成学习的定义集成学习的性质集成学习的算法过程集成学习的算法描述集成学习的例子和例题Julia实现集成学习 集成学习数学原理一、基学习器的生成Bagging(装袋法)Boosting(提升法) 二、基学习器的结…...
XXL-JOB在SpringBoot中的集成
在SpringBoot中,XXL-JOB作为一个轻量级的分布式任务调度平台,提供了灵活的任务分片处理功能,这对于处理大规模、复杂的任务场景尤为重要。以下将详细探讨如何在SpringBoot中利用XXL-JOB实现灵活控制的分片处理方案,涵盖配置、代码…...
前端工程规范-3:CSS规范(Stylelint)
样式规范工具(StyleLint) Stylelint 是一个灵活且强大的工具,适用于保持 CSS 代码的质量和一致性。结合其他工具(如 Prettier 和 ESLint),可以更全面地保障前端代码的整洁性和可维护性。 目录 样式规范工具…...
Qt系列-1.Qt安装
Qt安装 0 简介 1.安装步骤 1.1 下载 进入qt中文网站:https://www.qt.io/zh-cn/ Qt开源社区版本:https://www.qt.io/download-open-source#source 1.2 安装 chmod +x qt-online-installer-linux-x64-4.8.0.run ./qt-online-installer-linux-x64-4.8.0.run 外网不能下载…...
《自控原理》最小相位系统
在复平面右半平面既没有零点,也没有极点的系统,称为最小相位系统,其余均为非最小相位系统。 从知乎看了一篇答案: https://www.zhihu.com/question/24163919 证明过程大概率比较难,我翻了两本自控的教材,…...
SpringBoot3脚手架
MySpringBootAPI SpringBoot3脚手架,基于SpringBoot3DruidPgSQLMyBatisPlus13FastJSON2Lombok,启动web容器为Undertow(非默认tomcat),其他的请自行添加和配置。 <java.version>17</java.version> <springboot.version>3.3…...
【C语言软开面经】
C语言软开面经 malloc calloc realloc free动态分配内存malloccalloc函数:realloc 函数:free函数: 堆栈-内存分区栈区(Stack):堆区(Heap):全局(静态ÿ…...
YOLOv11训练自己的数据集(从代码下载到实例测试)
文章目录 前言一、YOLOv11模型结构图二、环境搭建三、构建数据集四、修改配置文件①数据集文件配置②模型文件配置③训练文件配置 五、模型训练和测试模型训练模型验证模型推理 总结 前言 提示:本文是YOLOv11训练自己数据集的记录教程,需要大家在本地已…...
HTML粉色烟花秀
目录 系列文章 写在前面 完整代码 下载代码 代码分析 写在最后 系列文章 序号目录1HTML满屏跳动的爱心(可写字)2HTML五彩缤纷的爱心3HTML满屏漂浮爱心4...
从零开发操作系统
没有操作系统 要考虑放到什么位置 org 07c00h 我用nasm(汇编编译) 放到7c00处 ibm兼容机 AX发生变化 -寄存器 不可能做存储 内存- 代码段数据段 if else --指令 代码 int a -数据段 必须告诉计算机代码段从哪里开始 改变cs寄存器里面的值可以改变推进寄…...
SigmaStudio中部分滤波器算法有效性频谱分析
一、各类滤波器参数如下图设置 1.1、输入源白噪音经过如下算法处理后Notch\Band Pass\Band Stop,如下频谱分析图 1.2、输入源白噪音经过low pass后处理前后的频谱分析如如下 二、Notch滤波器配置图,如下 2.1、两串联、五个串联和未串联的Notch对白噪音…...
ArcGIS与ArcGIS Pro去除在线地图服务名单
我们之前给大家分享了很多在线地图集,有些地图集会带有制作者信息,在布局制图的时候会带上信息影响出图美观。 一套GIS图源集搞定!清新规划底图、影像图、境界、海洋、地形阴影图、导航图 比如ArcGIS: 比如ArcGIS Pro:…...
滚雪球学MySQL[10.1讲]:常见问题与解决
全文目录: 前言10. 常见问题与解决10.1 数据库连接问题10.1.1 无法连接到数据库10.1.2 连接超时10.1.3 连接数过多 10.2 性能问题10.2.1 查询速度慢10.2.2 数据库锁等待 10.3 数据完整性问题10.3.1 违反外键约束10.3.2 重复记录 10.4 安全问题10.4.1 SQL注入攻击10.…...
利用 Llama-3.1-Nemotron-51B 推进精度-效率前沿的发展
今天,英伟达™(NVIDIA)发布了一款独特的语言模型,该模型具有无与伦比的准确性和效率性能。Llama 3.1-Nemotron-51B 源自 Meta 的 Llama-3.1-70B,它采用了一种新颖的神经架构搜索(NAS)方法&#…...
SpringBoot+Thymeleaf发票系统
> 这是一个基于SpringBootSpringSecurityThymeleafBootstrap实现的简单发票管理系统。 > 实现了用户登录,权限控制,客户管理,发票管理等功能。 > 并且支持导出为 CSV / PDF / EXCEL 文件。 > 本项目是一个小型发票管理系统…...
Updates were rejected because the tip of your current branch is behind 的解决方法
1. 问题描述 当我们使用 git push 推送代码出现以下问题时: 2. 原因分析 这个错误提示表明当前本地分支落后于远程分支,因此需要先拉取远程的更改。 3. 解决方法 1、拉取远程更改 在终端中执行以下命令,拉取远程分支的更新并合并到本地…...
Redis桌面工具:Tiny RDM
1.Tiny RDM介绍 Tiny RDM(Tiny Redis Desktop Manager)是一个现代化、轻量级的Redis桌面客户端,支持Linux、Mac和Windows操作系统。它专为开发和运维人员设计,使得与Redis服务器的交互操作更加便捷愉快。Tiny RDM提供了丰富的Red…...
【Java】酒店管理系统
一 需求: 编写程序 模拟酒店管理系统 : 预订和退订以及查看所有房间 1 需要有一个酒店类 2 需要有一个房间类 3 需要有一个客户端类 public class Test { } 二 分析: 客户端 : 1 先打印所有房间 2 等待用户输入,根据输入情况 判断是预订还是退订 3 等待用户输入房间号 …...
【数据库】Java 中 MongoDB 使用指南:步骤与方法介绍
MongoDB 是一个流行的 NoSQL 数据库,因其灵活性和高性能而广泛使用。在 Java 中使用 MongoDB,可以通过 MongoDB 官方提供的 Java 驱动程序来实现。本文将详细介绍在 Java 中使用 MongoDB 的步骤以及相关方法。 1. 环境准备 1.1 安装 MongoDB 首先&…...
MySQL之内置函数
目录 一、日期函数 二、字符串函数 三、数学函数 四、其它函数 一、日期函数 常见的日期函数如下: 函数名称说明current_date()获取当前日期current_time()获取当前时间current_timestamp()获取当前时间戳date_add(date, interval d_value_type)在date中添加日…...
JVM 基本组成
1.为什么要学习JVM? 未来在工作场景中,也许你会遇到以下场景:线上系统突然宕机,系统无法访问,甚至直接OOM;线上系统响应速度太慢,优化系统性能过程中发现CPU占用过高,原因也许是因为…...
Ubuntu 离线安装 docker
1、下载离线包,网址:https://download.docker.com/linux/ubuntu/dists/xenial/pool/stable/ 离线安装docker需要下载3个包,containerd.io ,docker-ce-cli,docker-ce 2、下载完毕后拷贝到ubuntu上用 dpkg 命令安装&am…...
【C++】set详解
📢博客主页:https://blog.csdn.net/2301_779549673 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正! 📢本文由 JohnKi 原创,首发于 CSDN🙉 📢未来很长&#…...
C++游戏开发:构建高性能、沉浸式游戏体验的关键
引言 C作为游戏开发的核心语言,凭借其卓越的性能和灵活性,已成为许多现代游戏引擎和开发项目的首选。在游戏开发中,C不仅可以实现复杂的游戏逻辑,还能有效管理资源和优化性能。本文将深入探讨C在游戏开发中的应用,结合…...
【STM32开发笔记】移植AI框架TensorFlow到STM32单片机【上篇】
【STM32开发笔记】移植AI框架TensorFlow到STM32单片机【上篇】 一、TFLM是什么?二、TFLM开源项目2.1 下载TFLM源代码2.2 TFLM基准测试说明2.3 TFLM基准测试命令 三、TFLM初步体验3.1 PC上运行Keyword基准测试3.2 PC上运行Person detection基准测试3.3 No module nam…...
第三方供应商不提供API接口?教你四步破解集成难题
API开放需求 在企业数字化转型过程中,异构系统之间的连接是信息化阶段不可或缺的一环。通过应用API,企业能够实现不同系统、平台和应用之间的数据交换与功能调用,从而形成端到端的业务流程协同。然而,很多企业在集成第三方供应商…...
WebAssembly 为什么能提升性能,怎么使用它 ?
文章目录 简介:起源:前端性能提升历史JIT(Just-In-Time)编译器(即时编译) 为什么需要WebAssembly:WebAssembly能做什么:经常说WASM的性能高,为什么高??使用方法:Emscript…...
golang学习笔记13-函数(二):init函数,匿名函数,闭包,defer
注:本人已有C,C,Python基础,只写本人认为的重点。 这个知识点基本属于go的特性,比较重要,需要认真分析。 一、init函数 每个文件都可以定义init函数,它会在main函数执行前被调用,无论它的定义…...
HAproxy,nginx实现七层负载均衡
环境准备: 192.168.88.25 (client) 192.168.88.26 (HAproxy) 192.168.88.27 (web1) 192.168.88.28 (web2) 192.168.88.29 (php1) 192.168.88.30…...
ps aux | grep smart_webrtc这条指令代表什么意思
这条指令是在Linux系统中使用的命令,它的含义是列出所有正在运行的进程,并通过grep命令筛选出包含"smart_webrtc"关键字的进程。 具体解释如下: ps 是一个用于报告当前系统进程状态的命令。aux 是ps命令的选项,其中&a…...
美工外包网站/潍坊seo计费
::selection{ background: orange; color: white;} ::-moz-selection{ background: orange; color: white;} (//Firefox浏览器)转载于:https://www.cnblogs.com/SunnyYYN/p/7279577.html...
钟星建设集团网站/百度关键词排名靠前
一 般情况下,DBA能从监控mysql的状态列表中查看出数据库的运行端倪,需要注意的是STATUS所表示的不同内容。且需要注意的是TIME字段表示的 意思。它表示的只是最后那个STAT状态持续的时间。这个时间是有可能忽大忽小的。而不是SQL开始执行到现在的时间。单位时间是秒…...
做任务领黄钻的网站/网络运营培训
删除逻辑 boolean del(taskName任务名称, busNo业务编号) keyqlscf_taskName_busNo 如果key存在 getRedisTemplate().delete(key) 获取逻辑 boolean get(taskName任务名称, busNo业务编号) keyqlscf_taskName_busNo 如果key存在 取出redis中key对应的value:getRe…...
网站绝对路径/百度开放平台
Python调用C、C库sf2gis163.com2014年9月24日1 目标:Python调用C/C中的类或方法ctypes是Python扩展库,自2.5以后开始加入Python。Ctypes提供了C/C与Python之间交互的映射关系,将库映射为一个对象。用于调用C/C库。2 原理python使用c api dlop…...
软件上传网站/东莞seo代理
最近数码圈新机发布的少,但操作系统却打的火热。这边鸿蒙OS2.0刚刚公测,那边Android 12系统就正式登场了。谷歌正式发布Android 12(1)开放的系统风格与操作界面这么多年以来,国产手机用的基本上都是安卓系统,虽然它们在此基础上设…...
商丘做网站用什么程序比较好/百度品牌专区怎么收费
http://www.ruanyifeng.com/blog/2009/07/xpath_path_expressions.html 简单说,xpath就是选择XML文件中节点的方法。 所谓节点(node),就是XML文件的最小构成单位,一共分成7种。 - element(元素节点…...