当前位置：首页 > news >正文

Lesson 9.1 集成学习的三大关键领域、Bagging 方法的基本思想和 RandomForestRegressor 的实现

news 2026/4/8 15:08:16

文章目录

一、集成学习的三大关键领域
二、Bagging 方法的基本思想
三、RandomForestRegressor 的实现

在开始学习之前，先导入我们需要的库，并查看库的版本。

import numpy as np
import pandas as pd
import sklearn
import matplotlib as mlp
import seaborn as sns
import re, pip, condafor package in [sklearn,mlp,np,pd,sns,pip,conda]:print(re.findall("([^']*)",str(package))[2],package.__version__)
#sklearn 1.0.1
#matplotlib 3.4.3
#numpy 1.20.3
#pandas 1.3.4
#seaborn 0.11.2
#pip 21.3.1
#conda 4.10.3

如果有缺少的库或者库的版本比较落后可以采用如下的代码进行下载更新。

#下载
pip install --upgrade scikit-learn
#更新
conda update scikit-learn

一、集成学习的三大关键领域

集成学习（Ensemble learning）是机器学习中最先进、最有效、最具研究价值的领域之一，这类方法会训练多个弱评估器（base estimators）、并将它们输出的结果以某种方式结合起来解决一个问题。
在过去十年中，人工智能相关产业蓬勃发展，计算机视觉、自然语言处理、语音识别等领域不断推陈出新、硕果累累，但热闹是深度学习的，机器学习好似什么也没有。2012 年之后，传统机器学习占据的搜索、推荐、翻译、各类预测领域都被深度学习替代或入侵，在招聘岗位中，69% 的岗位明确要求深度学习技能，传统机器学习算法在这一场轰轰烈烈的人工智能热潮当中似乎有些被冷落了。
在人工智能大热的背后，集成学习就如同裂缝中的一道阳光，凭借其先进的思想、优异的性能杀出了一条血路，成为当代机器学习领域中最受学术界和产业界青睐的领域。
从今天的眼光来看，集成学习是：
（1）当代工业应用中，唯一能与深度学习算法分庭抗礼的算法；
（2）数据竞赛高分榜统治者，KDDcup、Kaggle、天池、DC 冠军队御用算法；
（3）在搜索、推荐、广告等众多领域，事实上的工业标准和基准模型；
（4）任何机器学习/深度学习工作者都必须掌握其原理、熟读其思想的领域。
在集成学习的发展历程中，集成的思想以及方法启发了众多深度学习和机器学习方面的工作，在学术界和工业界都取得了巨大的成功。今天，集成学习可以被分为三个主要研究领域：
-（1）模型融合。
模型融合在最初的时候被称为分类器结合，这个领域主要关注强评估器，试图设计出强大的规则来融合强分类器的结果、以获取更好的融合结果。这个领域的手段主要包括了投票法 Voting、堆叠法 Stacking、混合法 Blending等，且被融合的模型需要是强分类器。
模型融合技巧是机器学习/深度学习竞赛中最为可靠的提分手段之一，常言道：当你做了一切尝试都无效，试试模型融合。
（2）弱分类器集成。
弱分类器集成主要专注于对传统机器学习算法的集成，这个领域覆盖了大部分我们熟悉的集成算法和集成手段，如装袋法 bagging，提升法 boosting。这个领域试图设计强大的集成算法、来将多个弱学习器提升成为强学习器。
（3）混合专家模型（mixture of experts）。
混合专家模型常常出现在深度学习（神经网络）的领域。在其他集成领域当中，不同的学习器是针对同一任务、甚至在同一数据上进行训练。
但在混合专家模型中，我们将一个复杂的任务拆解成几个相对简单且更小的子任务，然后针对不同的子任务训练个体学习器（专家），然后再结合这些个体学习器的结果得出最终的输出。

二、Bagging 方法的基本思想

Bagging又称为装袋法，它是所有集成学习方法当中最为著名、最为简单、也最为有效的操作之一。
在 Bagging 集成当中，我们并行建立多个弱评估器（通常是决策树，也可以是其他非线性算法），并综合多个弱评估器的结果进行输出。
当集成算法目标是回归任务时，集成算法的输出结果是弱评估器输出的结果的平均值，当集成算法的目标是分类任务时，集成算法的输出结果是弱评估器输出的结果少数服从多数。
举例来说，假设现在一个 bagging 集成算法当中有 7 个弱评估器，对任意一个样本而言，输出的结果如下：

#分类的情况：输出7个弱评估器上的分类结果（0，1，2）
r_clf = np.array([0,2,1,1,2,1,0])b_result_clf = np.argmax(np.bincount(r_clf))b_result_clf #集成算法在现在的样本上应该输出的类别
#1

bincount 会先将 array 由小到大进行排序，然后对每个数值进行计数，并返回计数结果的函数。需要注意的是，bincount 函数不能接受负数输入。
argmax 是找到 array 中最大值，并返回最大值索引的函数。

np.bincount(r_clf) #0类2个，1类3个，2类2个
#array([2, 3, 2], dtype=int64)np.bincount([3,0,2,1,1,2,1,0]) #0类2个，1类3个，2类2个，3类1个
#array([2, 3, 2, 1], dtype=int64)np.argmax(np.array([2, 3, 2]))
#不难发现，其返回的就是少数服从多数后数量最多的类别
#1#如果是二分类，涉及到有一些负数类别的，可以使用如下代码
r_clf = np.array([1,1,1,-1,-1,-1,-1])
(r_clf == 1).sum() #整个集成算法当中，输出为1的弱分类器的数量
#3(r_clf == -1).sum()
#4b_result_clf = 1 if (r_clf == 1).sum() > (r_clf != 1).sum() else -1
b_result_clf
#-1#如果评估器的数量是偶数，而少数和多数刚好一致怎么办？
r_clf = np.array([1,1,1,0,0,0,2,2])

从数量一致的类别中随机返回一个类别（需要进行随机设置）。
从数量一致的类别中，返回编码数字更小的类别（如果使用 argmax 函数）。

#回归的情况：输出7个弱评估器上的回归结果
r_reg = np.array([-2.082, -0.601, -1.686, -1.001, -2.037, 0.1284, 0.8500])
b_result_reg = r_reg.mean()
b_result_reg
#-0.9183714285714285

在 sklearn 当中，我们可以接触到两个 Bagging 集成算法，一个是随机森林（RandomForest），另一个是极端随机树（ExtraTrees），他们都是以决策树为弱评估器的有监督算法，可以被用于分类、回归、排序等各种任务。
同时，我们还可以使用 bagging 的思路对其他算法进行集成，比如使用装袋法分类的类 BaggingClassifier 对支持向量机或逻辑回归进行集成。在课程当中，我们将重点介绍随机森林的原理与用法。

Bagging算法	集成类
随机森林分类	RandmForestClassifier
随机森林回归	RandomForestRegressor
极端随机树分类	ExtraTreesClassifier
极端随机树回归	ExtraTreesRegressor
装袋法分类	BaggingClassifier
装袋法回归	BaggingRegressor

三、RandomForestRegressor 的实现

随机森林是机器学习领域最常用的算法之一，其算法构筑过程非常简单：从提供的数据中随机抽样出不同的子集，用于建立多棵不同的决策树，并按照 Bagging 的规则对单棵决策树的结果进行集成（回归则平均，分类则少数服从多数）。
只要你充分掌握了决策树的各项属性和参数，随机森林的大部分内容都相当容易理解。
虽然原理上很简单，但随机森林的学习能力异常强大、算法复杂度高、又具备一定的抗过拟合能力，是从根本上来说比单棵决策树更优越的算法。
即便在深入了解机器学习的各种技巧之后，它依然是我们能够使用的最强大的算法之一。原理如此简单、还如此强大的算法在机器学习的世界中是不常见的。在机器学习竞赛当中，随机森林往往是我们在中小型数据上会尝试的第一个算法。
在 sklearn 中，随机森林可以实现回归也可以实现分类。随机森林回归器由类 sklearn.ensemble.RandomForestRegressor 实现，随机森林分类器则有类 sklearn.ensemble.RandomForestClassifier 实现。
我们可以像调用逻辑回归、决策树等其他 sklearn 中的算法一样，使用“实例化、fit、predict/score”三部曲来使用随机森林，同时我们也可以使用 sklearn 中的交叉验证方法来实现随机森林。其中回归森林的默认评估指标为 R2，分类森林的默认评估指标为准确率。
随机森林回归器实现模板如下：

class sklearn.ensemble.RandomForestRegressor(n_estimators=100, *, criterion='squared_error', max_depth=None, min_samples_split=2,
min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, 
bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, ccp_alpha=0.0, max_samples=None)

随机森林分类器实现模板如下：

class sklearn.ensemble.RandomForestClassifier(n_estimators=100, *, criterion='gini', max_depth=None, min_samples_split=2,
min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0,
bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None, ccp_alpha=0.0, 
max_samples=None)

不难发现，随机森林回归器和分类器的参数高度一致，因此我们只需要讲解其中一个类即可。任意集成算法在发源时都是回归类算法，因此我们的重点将会放在回归类算法上。
随机森林有大量的参数，幸运的是，随机森林中所有参数都有默认值，因此即便我们不学习任何参数，也可以调用随机森林算法。我们先来建一片森林看看吧：
先导入必要的库。

import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestRegressor as RFR
from sklearn.tree import DecisionTreeRegressor as DTR
from sklearn.model_selection import cross_validate, KFold

这里有几点需要注意：
（1）这里我们不再使用 cross_val_score，转而使用能够输出训练集分数的 cross_validate；
（2）决策树本身就是非常容易过拟合的算法，而集成模型的参数量/复杂度很难支持大规模网格搜索，因此对于随机森林来说，一定要关注算法的过拟合情况。
首先，我们先读入待操作的数据集，并通过 head() 函数读取其中的前五行数据。

data = pd.read_csv(r"D:\Pythonwork\2021ML\PART 2 Ensembles\datasets\House Price\train_encode.csv",index_col=0)
data.head()
#Id	住宅类型	住宅区域	街道接触面积(英尺)	住宅面积	街道路面状况	巷子路面状况	住宅形状(大概)	住宅现状	水电气	...	泳池面积	泳池质量	篱笆质量	其他配置	其他配置的价值	销售月份	销售年份	销售类型	销售状态	SalePrice
#0	0.0	5.0	3.0	36.0	327.0	1.0	0.0	3.0	3.0	0.0	...	0.0	0.0	0.0	0.0	0.0	1.0	2.0	8.0	4.0	208500
#1	1.0	0.0	3.0	51.0	498.0	1.0	0.0	3.0	3.0	0.0	...	0.0	0.0	0.0	0.0	0.0	4.0	1.0	8.0	4.0	181500
#2	2.0	5.0	3.0	39.0	702.0	1.0	0.0	0.0	3.0	0.0	...	0.0	0.0	0.0	0.0	0.0	8.0	2.0	8.0	4.0	223500
#3	3.0	6.0	3.0	31.0	489.0	1.0	0.0	0.0	3.0	0.0	...	0.0	0.0	0.0	0.0	0.0	1.0	0.0	8.0	0.0	140000
#4	4.0	5.0	3.0	55.0	925.0	1.0	0.0	0.0	3.0	0.0	...	0.0	0.0	0.0	0.0	0.0	11.0	2.0	8.0	4.0	250000
#5 rows × 81 columns

可以通过 shape 函数得到数据的行列数量信息。

data.shape
#(1460, 81)

随后对 X 和 y 进行设定，并操作。

X = data.iloc[:,:-1]
y = data.iloc[:,-1]y #注意，y的类型是整数型，并且y的均值很大，可想而知整体的MSE一定会很大
#0       208500
#1       181500
#2       223500
#3       140000
#4       250000
#         ...  
#1455    175000
#1456    210000
#1457    266500
#1458    142125
#1459    147500
#Name: SalePrice, Length: 1460, dtype: int64y.mean()
#180921.19589041095X.shape
#(1460, 80)X.columns.tolist()
#['Id',
# '住宅类型',
# '住宅区域',
# '街道接触面积(英尺)',
# '住宅面积',
# '街道路面状况',
# '巷子路面状况',
# '住宅形状(大概)',
# '住宅现状',
# '水电气',
# '住宅配置',
# '住宅视野',
# '社区',
# '住宅周边1',
# '住宅周边2',
# '适用家庭',
# '住宅房型',
# '装修质量',
# '整体质量',
# '建造年份',
# '法律拆除年份',
# '天花板类型',
# '天花板材料',
# '户外装饰1',
# '户外装饰2',
# '砖墙类型',
# '砖墙面积',
# '户外材料质量',
# '户外装修质量',
# '地下室类型',
# '地下室深度',
# '地下室质量',
# '花园外墙',
# '地下室现状1',
# '地下室一层标准面积',
# '地下室现状2',
# '地下室二层标准面积',
# '地下室建造现状',
# '整体地下室面积',
# '暖气类型',
# '暖气质量',
# '中央空调',
# '电力系统',
# '二楼面积',
# '三楼面积',
# '全低质量面积',
# '户外活动空间面积',
# '全卫地下室',
# '半卫地下室',
# '全卫及以上',
# '半卫及以上',
# '卧室及以上',
# '厨房及以上',
# '厨房质量',
# '总房间量',
# '住宅性能',
# '壁炉数量',
# '壁炉质量',
# '车库类型',
# '车库建造时间',
# '车库装修现状',
# '车位数量',
# '车库面积',
# '车库质量',
# '车库现状',
# '石板路',
# '木板面积',
# '开放式门廊面积',
# '关闭式门廊面积',
# '三季门廊面积',
# '半开放式门廊面积',
# '泳池面积',
# '泳池质量',
# '篱笆质量',
# '其他配置',
# '其他配置的价值',
# '销售月份',
# '销售年份',
# '销售类型',
# '销售状态']reg_f = RFR() #实例化随机森林
reg_t = DTR() #实例化决策树
cv = KFold(n_splits=5,shuffle=True,random_state=1412) #实例化交叉验证方式

与 sklearn 中其他回归算法一样，随机森林的默认评估指标是 R2，但在机器学习竞赛、甚至实际使用时，我们很少使用损失以外的指标对回归类算法进行评估。对回归类算法而言，最常见的损失就是 MSE。

cross_validate	参数
n_jobs	允许该程序调用的线程数
verbose	是否打印进度

result_t = cross_validate(reg_t #要进行交叉验证的评估器,X,y #数据,cv=cv #交叉验证模式,scoring="neg_mean_squared_error" #评估指标,return_train_score=True #是否返回训练分数,verbose=True #是否打印进程,n_jobs=-1 #线程数)
#[Parallel(n_jobs=-1)]: Using backend LokyBackend with 16 concurrent workers.
#[Parallel(n_jobs=-1)]: Done   5 out of   5 | elapsed:    1.2s finished

你知道如何查看自己计算机的线程数吗？

result_f = cross_validate(reg_f,X,y,cv=cv,scoring="neg_mean_squared_error",return_train_score=True,verbose=True,n_jobs=-1)
#[Parallel(n_jobs=-1)]: Using backend LokyBackend with 16 concurrent workers.
#[Parallel(n_jobs=-1)]: Done   5 out of   5 | elapsed:    2.1s finishedresult_t #超级过拟合
#{'fit_time': array([0.0220046 , 0.0220046 , 0.0220046 , 0.02100563, 0.02100468]),
# 'score_time': array([0.00199962, 0.00199938, 0.00199938, 0.00199914, 0.00200129]),
# 'test_score': array([-1.13534182e+09, -3.41485921e+09, -1.67088861e+09, -1.67895115e+09,
#        -1.59034213e+09]),
# 'train_score': array([-0., -0., -0., -0., -0.])}result_f #训练集和测试在交叉验证上的分数差异更小，因此森林的过拟合程度没有决策树高
#{'fit_time': array([1.31684232, 1.19581604, 1.27883458, 1.29583764, 1.21081877]),
# 'score_time': array([0.01100278, 0.01100206, 0.01100206, 0.01100278, 0.0110023 ]),
# 'test_score': array([-7.66379839e+08, -2.01798504e+09, -7.66327398e+08, -4.90163166e+08,
#        -9.88309425e+08]),
# 'train_score': array([-1.27164348e+08, -1.09165780e+08, -1.34679785e+08, -1.39727005e+08,
#        -1.19699899e+08])}

在集成学习中，我们衡量回归类算法的指标一般是 RMSE（根均方误差），也就是 MSE 开根号后的结果。现实数据的标签往往数字巨大、数据量庞杂，MSE 作为平方结果会放大现实数据上的误差（例如随机森林结果中得到的，7∗108 等结果。
，因此我们会对平房结果开根号，让回归类算法的评估指标在数值上不要过于夸张。同样的，方差作为平方结果，在现实数据上也会太大，因此如果可以，我们使用标准差进行模型稳定性的衡量。

trainRMSE_f = abs(result_f["train_score"])**0.5
testRMSE_f = abs(result_f["test_score"])**0.5
trainRMSE_t = abs(result_t["train_score"])**0.5
testRMSE_t = abs(result_t["test_score"])**0.5
trainRMSE_f.mean()
#11218.296933940535
testRMSE_f.mean()
#30773.03828921106trainRMSE_f.std() #方差数额太大，使用标准差
#487.0084587022606#默认值下随机森林的RMSE与标准差std
xaxis = range(1,6)
plt.figure(figsize=(8,6),dpi=80)
#RMSE
plt.plot(xaxis,trainRMSE_f,color="green",label = "RandomForestTrain")
plt.plot(xaxis,testRMSE_f,color="green",linestyle="--",label = "RandomForestTest")
plt.plot(xaxis,trainRMSE_t,color="orange",label = "DecisionTreeTrain")
plt.plot(xaxis,testRMSE_t,color="orange",linestyle="--",label = "DecisionTreeTest")
plt.xticks([1,2,3,4,5])
plt.xlabel("CVcounts",fontsize=16)
plt.ylabel("RMSE",fontsize=16)
plt.legend()
plt.show()

在这里插入图片描述

其中，横坐标表示交叉验证次数，纵坐标表示 RMSE 数值。
从图像来看，森林与决策树都处于过拟合状态，不过森林的过拟合程度较轻，决策树的过拟合程度较强。两个算法在训练集上的结果都比较优秀，决策树的可以完美学习训练集上的内容，达到 RMSE=0 的程度。
而随机森林在训练集上的 RMSE 大约在 1w 上下徘徊，测试集上的结果则是随机森林更占优。可见，与填写的参数无关，随机森林天生就是比决策树更不容易过拟合、泛化能力更强的。

Lesson 9.1 集成学习的三大关键领域、Bagging 方法的基本思想和 RandomForestRegressor 的实现

文章目录一、集成学习的三大关键领域二、Bagging 方法的基本思想三、RandomForestRegressor 的实现在开始学习之前，先导入我们需要的库，并查看库的版本。 import numpy as np import pandas as pd import sklearn import matplotlib as mlp import sea…...

编程日记 2023/3/10 20:03:18

basic1.0链码部署（基于test-network 环境ubuntu20.04腾讯云）

解决了官方示例指令需要科学上网才能运行的问题（通过手动下载二进制文件和拉取官方fabric-samples）。具体的将bootstrap.sh脚本解读了一遍具体可以参照我的博客 fabric中bootstrap.sh到底帮助我们干了什么？（curl -sSL https://bi…...

编程日记 2023/3/10 20:02:16

Android---系统启动流程

目录 Android 系统启动流程 init 进程分析 init.rc 解析 Zygote 概叙 Zygote 触发过程 Zygote 启动过程什么时Runtime？ System Server 启动流程 Fork 函数总结面试题 Android 是 google 公司开发的一款基于 Linux 的开源操作系统。 Android 系统启动…...

编程日记 2023/3/10 20:01:13

【网络】http协议

🥁作者： 华丞臧. 📕专栏：【网络】各位读者老爷如果觉得博主写的不错，请诸位多多支持(点赞收藏关注)。如果有错误的地方，欢迎在评论区指出。推荐一款刷题网站 👉 LeetCode刷题网站文章…...

编程日记 2023/3/10 20:00:11

Thread::interrupted() 什么意思？如何中断线程?

1、答： Thread::interrupted() 是一个静态方法，用于判断当前线程是否被中断，并清除中断标志位。具体来说，当一个线程被中断后，它的中断状态将被设置为 true。如果在接下来的某个时间点内调用了该线程的 interrupted…...

编程日记 2023/3/10 19:59:09

Oracle OCP 19c 考试（1Z0-083）中关于Oracle不完全恢复的考点（文末附录像）

欢迎试看博主的专著《MySQL 8.0运维与优化》下面是Oracle 19c OCP考试（1Z0-083）中关于Oracle不完全恢复的题目: A database is configured in ARCHIVELOG mode A full RMAN backup exists but no control file backup to trace has been taken A media…...

编程日记 2023/3/10 19:58:08

一起来学习配置Combo接口吧！

Combo接口是一个光电复用的逻辑接口，一个Combo接口对应设备面板上一个GE电接口和一个GE光接口。电接口与其对应的光接口是光电复用关系，两者不能同时工作（当激活其中一个接口时，另一个接口就自动处于禁用状态）&#xf…...

编程日记 2023/3/10 19:57:06

C++模拟实现红黑树

目录介绍----什么是红黑树甲鱼的臀部----规定分析思考绘图解析代码实现节点部分插入部分分步解析 ●父亲在祖父的左，叔叔在祖父的右： ●父亲在祖父的右，叔叔在祖父的左： 测试部分整体代码介绍----什么是红黑树红…...

编程日记 2023/3/10 19:56:02

HTTPS协议之SSL/TLS详解（下）

目录前言： SSL/TLS详解 HTTP协议传输安全性分析对称加密非对称加密证书小结： 前言： 在网络世界中，存在着运营商劫持和一些黑客的攻击。如果明文传输数据是很危险的操作，因为我们不清楚中间传输过程中就被哪…...

编程日记 2023/3/10 19:54:58

OLE对象是什么？为什么要在CAD图形中插入OLE对象？

OLE对象是什么？OLE对象的意思是指对象连接与嵌入。那为什么要在CAD图形中插入OLE对象？一般情况下，在CAD图形中插入OLE对象，是为了将不同应用程序的数据合并到一个文档中。本节内容小编就来给大家分享一下在CAD图形中插入OLE对象的…...

编程日记 2023/3/10 19:53:56

【微信小程序】-- 自定义组件 -- 数据、方法和属性（三十三）

💌 所属专栏：【微信小程序开发教程】 😀 作者：我是夜阑的狗🐶 🚀 个人简介：一个正在努力学技术的CV工程师，专注基础和实战分享 ，欢迎咨询！ &…...

编程日记 2023/3/10 19:52:55

【Spring 深入学习】AOP的前世今生之代理模式

AOP的前世今生之代理模式1. 概述什么是代理模式呢？？？ 在不修改原有代码或是无法修改原有代码的情况下，增强对象功能，替代原来的对象去完成功能，从而达成了拓展的目的。先给大家看下 JavaScript中实现方…...

编程日记 2023/3/10 19:51:51

操作系统复试

2017软学给出操作系统的定义，分别从资源管理，任务调度，用户接口等三个方面论述操作系统的职能操作系统是位于硬件层之上、所有其他系统软件层之下的一个系统软件，使得管理系统中的各种软件和硬件资源得以充分利用，方…...

编程日记 2023/3/10 19:50:47

藏经阁（五）温湿度传感器 SHT3x-DIS 手册解析

文章目录芯片特性芯片内部框图芯片引脚定义芯片温湿度范围芯片寄存器以及时序讲解信号转换公式芯片特性湿度和温度传感器完全校准，线性化温度补偿数字输出供电电压范围宽，从2.4 V到5.5 VI2C接口通讯速度可达1MHz和两个用户可选地址典型精度 2% RH和 0.…...

编程日记 2023/3/10 19:49:44

PCB焊盘设计基本原则

SMT的组装质量与PCB焊盘设计有直接的关系，焊盘的大小比例十分重要。如果PCB焊盘设计正确，贴装时少量的歪斜可以再次回流焊纠正(称为自定位或自校正效应)，相反，如果PCB焊盘设计不正确，即使贴装位置十分准确，…...

编程日记 2023/3/10 19:48:41

mysql锁分类大全

前言为什么会出现锁 MySQL中的锁是为了保证并发操作的正确性和一致性而存在的。当多个用户同时对同一份数据进行操作时，如果不加控制地进行读写操作，就可能导致数据不一致的问题。例如，当多个用户同时对同一行数据进行写操作时&#xff…...

编程日记 2023/3/10 19:47:40

描述性统计

参考文献威廉 M 门登霍尔《统计学》文章目录定性数据的描述方法条形图饼图帕累托图定量数据点图茎叶图频数分布直方图MINITAB 工具在威廉《统计学》一书将统计学分为描述统计学和推断统计学，他们的定义分别如下：描述统计学：致力于数据集的…...

编程日记 2023/3/10 19:45:35

第十四届蓝桥杯三月真题刷题训练——第 7 天

目录第 1 题：三角回文数问题描述答案提交运行限制代码： 第 2 题：数数问题描述答案提交运行限制代码： 第 3 题：倍数问题_同余定理_分情况讨论题目描述输入描述输出描述输入输出样例运行限…...

编程日记 2023/3/10 19:44:33

剑指 Offer 57. 和为s的两个数字

一、题目输入一个递增排序的数组和一个数字s，在数组中查找两个数，使得它们的和正好是s。如果有多对数字的和等于s，则输出任意一对即可。示例 1： 输入：nums [2,7,11,15], target 9 输出：[2,7] 或者 [7…...

编程日记 2023/3/10 19:43:31

如何在Windows上获得完整的AirPods体验？终极解决方案来了！

如何在Windows上获得完整的AirPods体验？终极解决方案来了！ 【免费下载链接】AirPodsDesktop ☄️ AirPods desktop user experience enhancement program, for Windows and Linux (WIP) 项目地址: https://gitcode.com/gh_mirrors/ai/AirPodsDesktop …...

编程新知 2026/4/8 15:03:46

PF4J高级特性解析：从依赖管理到安全包装器的完整指南

PF4J高级特性解析：从依赖管理到安全包装器的完整指南【免费下载链接】pf4j Plugin Framework for Java (PF4J) 项目地址: https://gitcode.com/gh_mirrors/pf/pf4j PF4J（Plugin Framework for Java）是一个轻量级、企业级的Java插件框…...

编程新知 2026/4/8 14:06:45

深入解析MTK平台fastboot启动流程与关键代码实现

1. MTK平台fastboot模式概述 fastboot是Android设备中一个极其重要的底层模式，它相当于PC主板上的BIOS界面。当你的手机进入fastboot模式时，实际上是在bootloader环境下运行一个精简的操作系统。这个模式允许开发者通过USB连接直接与设备底层通信&#x…...

编程新知 2026/4/8 13:48:26

基于CANopen协议，实现机器人500-1000Hz高频控制（附实操实例） (1)

机器人控制：基于CANopen协议的高频控制（大于500Hz）（附实操实例）在机器人控制领域，高频控制（500-1000Hz）是实现高精度轨迹跟踪、快速动态响应的核心需求——无论是协作机器人的柔性交互、工业机械臂的高速分拣，还是AGV的精准定位，都需要控制器与执行器（伺服驱动器、…...

编程新知 2026/4/8 13:03:08

BeRoot代码实现原理：深入理解文件权限与服务配置检查机制

BeRoot代码实现原理：深入理解文件权限与服务配置检查机制【免费下载链接】BeRoot Privilege Escalation Project - Windows / Linux / Mac 项目地址: https://gitcode.com/gh_mirrors/be/BeRoot BeRoot是一款强大的权限提升工具，支持Windows、Li…...

编程新知 2026/4/8 12:42:50

告别驱动烦恼：Universal ADB Driver 让 Windows 连接 Android 设备变得简单

告别驱动烦恼：Universal ADB Driver 让 Windows 连接 Android 设备变得简单【免费下载链接】UniversalAdbDriver One size fits all Windows Drivers for Android Debug Bridge. 项目地址: https://gitcode.com/gh_mirrors/un/UniversalAdbDriver 还在为连接…...

编程新知 2026/4/8 12:20:24

Arduino-Pico：Raspberry Pi Pico Arduino核心完全指南 - 支持所有RP2040和RP2350开发板

Arduino-Pico：Raspberry Pi Pico Arduino核心完全指南 - 支持所有RP2040和RP2350开发板【免费下载链接】arduino-pico Raspberry Pi Pico Arduino core, for all RP2040 and RP2350 boards 项目地址: https://gitcode.com/gh_mirrors/ar/arduino-pico 想要在…...

编程新知 2026/4/8 11:35:44

YOLOv12跨平台开发指南：Python、C++、Rust多语言实现终极教程

YOLOv12跨平台开发指南：Python、C、Rust多语言实现终极教程【免费下载链接】yolov12 [NeurIPS 2025] YOLOv12: Attention-Centric Real-Time Object Detectors 项目地址: https://gitcode.com/gh_mirrors/yo/yolov12 YOLOv12作为NeurIPS 2025最新发布的注意…...

编程新知 2026/4/8 10:09:14

推荐系统的DIN/DIEN：LLM如何理解用户行为序列

但要注意，一旦你是冲基础模型研发组、AGI研究组那种方向，那没论文确实很吃亏，甚至 HR 默认筛掉。现在大厂里的LLM职业方向，实际上已经分化得很厉害了。你得先分清楚你想去的是哪种。一种是“研究岗”或者叫“预模型训练岗”&#…...

编程新知 2026/4/8 9:33:48

FastAPI Pydantic配置终极指南：如何高效管理数据验证与API文档

FastAPI Pydantic配置终极指南：如何高效管理数据验证与API文档【免费下载链接】fastapi FastAPI framework, high performance, easy to learn, fast to code, ready for production 项目地址: https://gitcode.com/GitHub_Trending/fa/fastapi FastAPI框架…...

编程新知 2026/4/8 9:18:59

Lesson 9.1 集成学习的三大关键领域、Bagging 方法的基本思想和 RandomForestRegressor 的实现

文章目录

一、集成学习的三大关键领域

二、Bagging 方法的基本思想

三、RandomForestRegressor 的实现

相关文章：

Lesson 9.1 集成学习的三大关键领域、Bagging 方法的基本思想和 RandomForestRegressor 的实现

basic1.0链码部署（基于test-network 环境ubuntu20.04腾讯云）

Android---系统启动流程

【网络】http协议

Thread::interrupted() 什么意思？如何中断线程?

Oracle OCP 19c 考试（1Z0-083）中关于Oracle不完全恢复的考点（文末附录像）

一起来学习配置Combo接口吧！

C++模拟实现红黑树

HTTPS协议之SSL/TLS详解（下）

OLE对象是什么？为什么要在CAD图形中插入OLE对象？

【微信小程序】-- 自定义组件 -- 数据、方法和属性（三十三）

【Spring 深入学习】AOP的前世今生之代理模式

操作系统复试

藏经阁（五）温湿度传感器 SHT3x-DIS 手册解析

PCB焊盘设计基本原则

mysql锁分类大全

推荐几款主流好用的远程终端连接管理软件

描述性统计

第十四届蓝桥杯三月真题刷题训练——第 7 天

剑指 Offer 57. 和为s的两个数字

如何在Windows上获得完整的AirPods体验？终极解决方案来了！

PF4J高级特性解析：从依赖管理到安全包装器的完整指南

深入解析MTK平台fastboot启动流程与关键代码实现

基于CANopen协议，实现机器人500-1000Hz高频控制（附实操实例） (1)

BeRoot代码实现原理：深入理解文件权限与服务配置检查机制

告别驱动烦恼：Universal ADB Driver 让 Windows 连接 Android 设备变得简单

Arduino-Pico：Raspberry Pi Pico Arduino核心完全指南 - 支持所有RP2040和RP2350开发板

YOLOv12跨平台开发指南：Python、C++、Rust多语言实现终极教程

推荐系统的DIN/DIEN：LLM如何理解用户行为序列

FastAPI Pydantic配置终极指南：如何高效管理数据验证与API文档

文章目录

一、 集成学习的三大关键领域

二、Bagging 方法的基本思想

三、RandomForestRegressor 的实现

相关文章：

一、集成学习的三大关键领域