当前位置：首页 > news >正文

第七章.集成学习(Ensemble Learning)—袋装(bagging),随机森林(Random Forest)

news 2026/3/22 19:44:58

第七章.集成学习 (Ensemble Learning)

7.1 集成学习—袋装(bagging),随机森林(Random Forest)

集成学习就是组合多个学习器，最后得到一个更好的学习器。

1.常见的4种集成学习算法

个体学习器之间不存在强依赖关系，袋装（bagging）
随机森林（Random Forest）
个体学习器之间存在强依赖关系，提升（boosting）
Stacking

2.袋装（bagging）

bagging也叫bootstrap aggregating,是原始数据集选择S次后得到S个新数据集的一种技术，是一种有放回的抽样。

1).示例：

①.原始训练数据集：{0,1,2,3,4,5,6,7,8,9}

②.Bootstrap采样：
{7,2,6,7,5,4,8,8,1,0}—未采样3,9
{1,3,8,0,3,5,8,0,1,9}—未采样2,4,6,7
{2,9,4,2,7,9,3,0,1,0}—未采样5,6,8

③.图像

从数据D中抽样K组新的数据集，每个数据集可以应用不同的算法进行建模（KNN,神经网络），共有K个模型，引入的新数据使用K个模型进行预测，然后组合投票决定最终输出结果。
假设图中是分类模型，左图有两个分类模型，两个分类模型组合起来可能是右图的决策边界

2).代码实现：

使用bagging后的测试结果有可能有提升，有可能不变，也有可能下降，在数据集比较复杂的情况下，建议使用bagging。

from sklearn import tree
from sklearn import neighbors
from sklearn import datasets
from sklearn.ensemble import BaggingClassifier
from sklearn.model_selection import train_test_split
import numpy as np
import matplotlib.pyplot as plt# 绘图
def plot(model):x_min, x_max = x_data[:, 0].min() - 1, x_data[:, 0].max() + 1y_min, y_max = x_data[:, 1].min() - 1, x_data[:, 1].max() + 1# 生成网格矩阵xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02), np.arange(y_min, y_max, 0.02))z = model.predict(np.c_[xx.ravel(), yy.ravel()])z = z.reshape(xx.shape)# 绘制等高线cs = plt.contourf(xx, yy, z)# 加载数据
iris = datasets.load_iris()
x_data = iris.data[:, :2]
y_data = iris.target# 数据切分
x_train, x_test, y_train, y_test = train_test_split(x_data, y_data)# KNN模型
knn = neighbors.KNeighborsClassifier()
knn.fit(x_train, y_train)
knn_accuracy = knn.score(x_test, y_test)
print('knn_accuracy:', knn_accuracy)# DicisionTree模型
dtree = tree.DecisionTreeClassifier()
dtree.fit(x_train, y_train)
dtree_accuracy = dtree.score(x_test, y_test)
print('dtree_accuracy:', dtree_accuracy)# 绘制bagging_knn分类模型
bagging_knn = BaggingClassifier(knn, n_estimators=100)
bagging_knn.fit(x_train, y_train)
bagging_knn_accuracy = bagging_knn.score(x_test, y_test)
print('bagging_knn_accuracy:', bagging_knn_accuracy)# 绘制bagging_dtree分类模型
bagging_dtree = BaggingClassifier(dtree, n_estimators=100)
bagging_dtree.fit(x_train, y_train)
bagging_dtree_accuracy = bagging_dtree.score(x_test, y_test)
print('bagging_dtree_accuracy:', bagging_dtree_accuracy)# 绘制knn分类模型
plt.subplot(2, 2, 1)
plot(knn)
plt.scatter(x_data[:, 0], x_data[:, 1], c=y_data)# 绘制决策树分类模型
plt.subplot(2, 2, 2)
plot(dtree)
plt.scatter(x_data[:, 0], x_data[:, 1], c=y_data)# 绘制bagging_knn分类模型
plt.subplot(2, 2, 3)
plot(bagging_knn)
plt.scatter(x_data[:, 0], x_data[:, 1], c=y_data)# 绘制bagging_dtree分类模型
plt.subplot(2, 2, 4)
plot(bagging_dtree)
plt.scatter(x_data[:, 0], x_data[:, 1], c=y_data)plt.show()

3).结果展示：

数据结果
图像结果

3.随机森林（Random Forest）

1).公式：

RF = 决策树 + Bagging + 随机属性选择

2).图像表示：

在这里插入图片描述

3).RF算法流程

①.样本的随机：从样本集中用bagging的方式，随机选择n个样本。

②.特征的随机：从所有属性d中随机选择k个属性（k<d）,然后从k个属性中选择最佳分割属性作为节点建立CART决策树。

③.重复以上两个步骤m次。建立m颗CART决策树

④.这m颗CART决策树形成随机森林，通过投票表决结果，决定数据属于哪一类。

4).代码实现：

from sklearn import tree
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import numpy as np
import matplotlib.pyplot as plt# 绘制图像
def plot(model):x_min, x_max = x_data[:, 0].min() - 1, x_data[:, 0].max() + 1y_min, y_max = x_data[:, 1].min() - 1, x_data[:, 1].max() + 1# 生成网格矩阵xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02), np.arange(y_min, y_max, 0.02))z = model.predict(np.c_[xx.ravel(), yy.ravel()])z = z.reshape(xx.shape)cs = plt.contourf(xx, yy, z)# 加载数据
data = np.genfromtxt('D:\\Data\\LR-testSet2.txt', delimiter=',')# 数据切分
x_data = data[:, :-1]
y_data = data[:, -1]# 测试集和训练集切分
x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.5)# 决策树模型
dtree = tree.DecisionTreeClassifier()
dtree.fit(x_train, y_train)
dtree_accuracy = dtree.score(x_test, y_test)
print('dtree_accuracy:', dtree_accuracy)# 随机森林
RF = RandomForestClassifier(n_estimators=50)
RF.fit(x_train, y_train)
RF_accuracy = RF.score(x_test, y_test)
print('RF_accuracy:', RF_accuracy)# 绘制决策树模型
plt.subplot(1, 2, 1)
plot(dtree)
plt.scatter(x_data[:, 0], x_data[:, 1], c=y_data)# 绘制随机森林模型
plt.subplot(1, 2, 2)
plot(RF)
plt.scatter(x_data[:, 0], x_data[:, 1], c=y_data)plt.show()

5).结果展示：

数据展示：
图像展示：

第七章.集成学习(Ensemble Learning)—袋装(bagging),随机森林(Random Forest)

第七章.集成学习 (Ensemble Learning) 7.1 集成学习—袋装(bagging),随机森林(Random Forest) 集成学习就是组合多个学习器，最后得到一个更好的学习器。 1.常见的4种集成学习算法个体学习器之间不存在强依赖关系，袋装（bagging）…...

编程日记 2023/3/3 1:33:19

Java_面向对象

Java_面向对象 1.面向对象概述面向对象是一种符合人类思想习惯的编程思想。显示生活中存在各种形态的不同事物，这些食物存在着各种各样的联系。在程序中使用对象来映射现实中的事物，使用对象的关系来描述事物之间的关系，这种思想就是面…...

编程日记 2023/3/3 1:32:12

【IoT】智能烟雾报警器

设计简介硬件设计由AT89C51单片机、DS18B20温度传感器、4位共阳数码管、电源模块、报警模块、按键模块、MQ-2烟雾检测模块和ADC0832模数转换模块组成。烟雾传感器MQ-2检测空气中的烟雾气体，通过ADC0832进行数据转换，经过单片机的运算处理后在数码管上…...

编程日记 2023/3/3 1:31:07

Python实现定时执行脚本(5)

前言本文是该专栏的第17篇，后面会持续分享python的各种干货知识，值得关注。笔者在前面有详细介绍过几种使用python实现定时执行任务的方法，可以说都是简单易上手的那种。而本文，再来详细介绍另外一种定时方法，那就是利用任务框架APScheduler（advanceded python schedu…...

编程日记 2023/3/3 1:30:02

JavaSe第4次笔记

1.转义字符和编程语言无关。 2.斜杠(\)需要转义，反斜杠(/)不需要转义。 3.不能做switch的参数的数据类型：long float double boolean( String可以)。 4.输入的写法：Scanner(回车自动带头文件(import java.util.Scanner;)) Scanner scan …...

编程日记 2023/3/3 1:28:57

epoll机制

预备知识文件描述符file descriptor 文件描述符是Linux系统中对文件、套接字等I/O资源的抽象，每个打开的文件或套接字都有一个唯一的文件描述符。应用程序可以使用文件描述符来读写文件或进行网络通信。 epoll允许程序监控多个文件描述符，以便在这些…...

编程日记 2023/3/3 1:27:53

Java使用不同方式获取两个集合List的交集、补集、并集(相加)、差集(相减)

1 明确概念首先知道几个单词的意思：并集 union交集 intersection补集 complement析取 disjunction减去 subtract1.1 并集对于两个给定集合A、B，由两个集合所有元素构成的集合，叫做A和B的并集。记作：AUB 读作“A并B”例&#…...

编程日记 2023/3/3 1:26:45

【Android笔记80】Android之Retrofit适配器和文件上传下载

这篇文章，主要介绍Android之Retrofit适配器和文件上传下载。目录一、Retrofit适配器 1.1、Retrofit适配器（1）引入RxJava依赖（2）定义接口...

编程日记 2023/3/3 1:25:40

Nodejs模块化

1.模块化 1.1.模块化的基本概念模块化是指解决一个复杂问题时，自顶向下逐层把系统划分为若干模块的过程。对于整个系统而言，模块是可组合、分解和更换的单元。 1.2 编程中的模块化编程领域的模块化就是把一个大文件拆成独立并相互依赖的多个小模块…...

编程日记 2023/3/3 1:24:35

C++STL基础

STL基础诞生 cpp的面向对象和泛型编程的思想本质就是提高复用性诞生了STL库基本概念 STL标准模板库STL从广义上分为容器、算法及迭代器容器和算法之间通过迭代器进行连接STL几乎所有的代码都采用了模板类或者模板函数基本组件容器、算法、迭代器、仿函数、适配器、空间配置…...

编程日记 2023/3/3 1:23:28

数学建模经验【更新中】

数学建模简单入门一、分工 3人，1人论文，1人代码主力，1人论文代码（前一半时间主代码，后一半时间主论文） Tips: 不养闲人，论文必须要在对代码和题目极其了解并且能跟上队友思路的情况下才能写…...

编程日记 2023/3/3 1:22:23

【python学习笔记】：Excel 数据的封装函数

对比其它编程语言，我们都知道Python最大的优势是代码简单，有丰富的第三方开源库供开发者使用。伴随着近几年数据分析的热度，Python也成为最受欢迎的编程语言之一。而对于数据的读取和存储，对于普通人来讲，除了数据库之…...

编程日记 2023/3/3 1:21:17

如何获取或设置CANoe以太网网卡信息（GET篇）

CAPL提供了一系列函数用来操作CANoe网卡。但是，但是，首先需要明确一点，不管是获取网卡信息，还是设置网卡信息，只能访问CAPL程序所在的节点下的网卡，而不是节点所在的以太网通道下的所有网卡关于第一张图中，Class节点下，有三个网卡：Ethernet1、VLAN 1.100、VLAN 1.200…...

编程日记 2023/3/3 1:20:13

“终于我从字节离职了...“一个年薪50W的测试工程师的自白...

我递上了我的辞职信，不是因为公司给的不多，也不是因为公司待我不好，但是我觉得，我每天看中我憔悴的面容，每天晚上拖着疲惫的身体躺在床上，我都不知道人生的意义，是赚钱吗？是为了更好…...

编程日记 2023/3/3 1:19:07

【Spring】八种常见Bean加载方式

🚩本文已收录至专栏：Spring家族学习一.引入 (1) 概述关于bean的加载方式，spring提供了各种各样的形式。因为spring管理bean整体上来说就是由spring维护对象的生命周期，所以bean的加载可以从大的方面划分成2种形式&#xff…...

编程日记 2023/3/3 1:17:59

第五回：样式色彩秀芳华

import matplotlib as mpl import matplotlib.pyplot as plt import numpy as np第五回详细介绍matplotlib中样式和颜色的使用，绘图样式和颜色是丰富可视化图表的重要手段，因此熟练掌握本章可以让可视化图表变得更美观，突出重点和凸显艺术性。…...

编程日记 2023/3/3 1:16:49

关于@Test单元测试

1、关于doReturndoReturn(new Test()).when(testService).updateStatusByLock(any(), any());在单元测试里这个方法可以执行到这里之间跳过不去执行，返回你想要的返回值2、关于givengiven(user.getName(any())).willReturn("张三");在单元测试里这个方法 …...

编程日记 2023/3/3 1:15:42

【项目实战】WebFlux整合r2dbc-mysql实战

一、背景 Webflux虽然是响应式的，但是没办法，JDBC是基于阻塞IO实现的，所以无法真正的威力发挥不出来。但是，Webflux一旦整合了R2DBC之后，那么它将不再受限于数据库连接了，真正打通了响应式应用的任督二脉，性能才被释放。当然，除了Spring推出的R2DBC协议，还有Orac…...

编程日记 2023/3/3 1:14:33

go版本分布式锁redsync使用教程

redsync使用教程前言redsync结构Pool结构Mutex结构acquire加锁操作release解锁操作redsync包的使用前言在编程语言中锁可以理解为一个变量，该变量在同一时刻只能有一个线程拥有，以便保护共享数据在同一时刻只有一个线程去操作。对于高可用的分布式锁应…...

编程日记 2023/3/3 1:13:21

大数据之Hudi数据湖_大数据治理_简介_发展历史_特性_应用场景---大数据之Hudi数据湖工作笔记0001

支持hive spark flink 美国公司开发的~ 都在使用,这些企业都在用支持hadoop的,更新,插入,删除和数据增量处理支持流式数据处理. hive是离线数仓 hive不支持事物 insert overwrite 底层后来通过这种方式支持了事物 insert overwrite处理数据很低效,因为更新是基于覆盖实现…...

编程日记 2023/3/3 1:12:10

Matlab/Simulink 半车主动悬架建模：ADRC 与 PID 的碰撞

matlab/simulink半车主动悬架建模：基于ADRC(自抗扰控制)的主动悬架控制。主体模型为半车主动悬架，采取ADRC控制。输出为车身加速度，悬架动挠度，轮胎动变形。默认输入为正弦路面输入。有与pid控制的效果对比。在汽车悬架系统的…...

编程新知 2026/3/22 19:27:04

Hensoldt 与 UMS 签署 GaN 供应协议

该协议旨在确保用于 Spexer 雷达系列设备的供应德国国防公司 Hensoldt 已与 United Monolithic Semiconductors (UMS) 签署了一项长期供应协议。到 2030 年，UMS 将为 Hensoldt 雷达提供总计 90 万个 GaN（氮化镓）半导体组件。GaN 半导体用于现…...

编程新知 2026/3/22 17:58:25

mitmproxy三大组件实战指南：从安装到高级过滤

1. mitmproxy三大组件初探：你的流量分析瑞士军刀第一次听说mitmproxy是在三年前的一个调试项目中，当时需要分析移动端App的API调用链路。试过Fiddler和Charles之后，发现这个命令行工具才是真正的"隐形冠军"。mitmproxy实际上是一个…...

编程新知 2026/3/22 17:12:05

Linux科研党必备：TeXstudio+Texlive 2024最新安装配置避坑指南

Linux科研党必备：TeXstudioTexlive 2024最新安装配置避坑指南作为一名长期在Linux环境下撰写学术论文的科研人员，我深知TeX系统在学术写作中的重要性。TeXlive作为最全面的TeX发行版，配合TeXstudio这一强大的编辑器，能够显著提升…...

编程新知 2026/3/22 16:31:54

哈工大机器学习实战解析：从SVM到核方法

1. 从线性可分到最大间隔：SVM的核心思想第一次听说支持向量机（SVM）时，我完全被那些数学符号吓退了。直到在哈工大实验室里亲手用Python实现了一个分类器，才真正理解它的精妙之处。想象你在玩一个拼图游戏，…...

编程新知 2026/3/22 16:03:44

王炸联动！OpenClaw 对接微信 / 企业微信保姆级教程，AI 办公效率翻倍

前言作为 2026 年爆火的开源 AI 智能体，OpenClaw早已成为打工人的办公效率神器，但想要让 AI 能力彻底融入日常沟通，实现微信 / 企业微信发指令、AI 秒执行的无缝协作，打通与微信生态的连接是关键！不管是在企业微信收发消息、同步文件，还是在个人微信调用 AI 处理办公…...

编程新知 2026/3/22 15:55:43

Matlab新手也能玩转遗传算法：从零实现一个简易车间布局优化器

Matlab新手也能玩转遗传算法：从零实现一个简易车间布局优化器第一次听说遗传算法时，我脑海中浮现的是生物课本上孟德尔的豌豆实验。谁能想到，这种模拟自然进化过程的计算方法，竟能用来解决工厂车间的机器摆放问题？作为…...

编程新知 2026/3/22 14:53:19

Pixel Dimension Fissioner精彩案例：品牌Slogan 10种文化适配版本生成

Pixel Dimension Fissioner精彩案例：品牌Slogan 10种文化适配版本生成 1. 工具介绍 Pixel Dimension Fissioner（像素语言维度裂变器）是一款基于MT5-Zero-Shot-Augment核心引擎构建的创新型文本改写工具。与传统AI工具不同，它将文…...

编程新知 2026/3/22 13:38:55