当前位置：首页 > news >正文

HyperGBM用4记组合拳提升AutoML模型泛化能力

news 2026/2/8 6:29:21

本文作者：杨健，九章云极 DataCanvas 主任架构师

如何有效提高模型的泛化能力，始终是机器学习领域的重要课题。经过大量的实践证明比较有效的方式包括：

利用Early Stopping防止过拟合
通过正则化降低模型的复杂度
使用更多的训练数据
尽量使用更少的特征
使用CV来选择模型和超参数
使用Ensemble来提升泛化能力

Early stopping以及正则化是比较基本的方法这里就不赘述，此外HyperGBM中还提供了4种高级特性，专门用来提升模型的泛化能力：

Pseudo-labeling半监督学习
二阶特征筛选
K-fold Cross-validation
Greedy ensemble

1.Pseudo-labeling

伪标签技术主要应用在分类任务上，本质上是通过半监督学习的方法来增加更多的训练数据，以提升模型的泛化能力。其过程如下图所示，主要分为三个阶段：

1.第一阶段用训练数据训练模型；

2.第二阶段使用第一阶段训练好的模型在无标注的数据上预测，将其中置信度较高的数据合并到训练集中；

3.第三阶段使用合并后的数据重新训练模型；
在这里插入图片描述

Image from: https://www.analyticsvidhya.com/blog/2017/09/pseudo-labelling-semi-supervised-learning-technique/

示例代码，HyperGBM中只需设置pseudo_labeling会自动完成伪标签学习：

from tabular_toolbox.datasets import dsutils
from sklearn.model_selection import train_test_split
from hypergbm.search_space import search_space_general
from hypergbm import make_experiment
# load data into Pandas DataFrame
df = dsutils.load_bank()
target = 'y'
train, test = train_test_split(df, test_size=0.3)
test.pop(target)#create an experiment
experiment = make_experiment(train,target=target,pseudo_labeling=True)
#run experiment
estimator = experiment.run()
# predict on test data without target values
pred = estimator.predict(test)

2.二阶特征筛选

通过特征筛选过滤掉无效特征或者噪音数据，能有效降低模型的复杂度。传统的特征筛选方法，一类是在训练之前通过相关性指标评估或者是基于模型的特征评估排序，然后根据阈值或者是排序选择n个特征用于训练，另一类是先训练模型然后根据模型本身提供的特征重要性来选择一部分特征重新训练。第一类方法有明显的缺陷就是特征的评估标准和实际用于训练的模型无关，也不会考虑特征之间的交互关系。第二类方法有明显的改进但也存在一个问题，就是模型提供是在训练数据上的重要性，并不能体现在评估数据或测试数据上特征的重要性。因此HyperGBM中引入了独特的二阶特征筛选策略来克服以上缺点。它的工作方式如下：首先执行一阶段AutoML过程，然后选择其中表现最好的n个模型使用permutation模式评估特征重要性，删除低于某一阈值的特征后，重新执行AutoML过程。

这里主要介绍一下permutation特征筛选：首先，基于已经训练好的模型在评估集上得到一个baseline评分，然后分别将每一列特征变成噪音数据后重新评估，评分等于或高于baseline评分说明该特征对模型没有增益甚至于是有损的，如果评分下降说明该特征是对模型有益的，用这个和baseline评分的差值做为特征筛选的参考值选择特征。

示例代码如下：

#create an experiment
experiment = make_experiment(train,target=target,
feature_reselection=True,
feature_reselection_estimator_size=10,
feature_reselection_threshold=1e-5,
)

3.K-fold Cross-validation

交叉验证被证明是模型选择和超参数优化中最有效的验证方式，示例代码如下：

#create an experiment
experiment = make_experiment(train,target=target,
cv=True, 
num_folds=3,
)

4.Greedy Ensemble

Greedy Ensemble是使用基于voting的集成学习方法，实现原理可以参考:

https://www.sciencedirect.com/science/article/abs/pii/S0031320310005340

示例代码：

#create an experiment
experiment = make_experiment(train,target=target,
ensemble_size=20, # 0 to disable ensemble
)

以上四种方法可以组合起来使用。

HyperGBM用4记组合拳提升AutoML模型泛化能力

相关文章：

HyperGBM用4记组合拳提升AutoML模型泛化能力

P6软件中的前锋线设置

Spring Boot + Vue3 前后端分离实战 wiki 知识库系统＜二＞---后端架构完善与接口开发

如何在logback.xml中自定义动态属性

嵌入式系统硬件设计与实践（第一步下载eda软件）

Portraiture4免费磨皮插件支持PS/LR

Python学习笔记202302

2023年大数据面试开胃菜

优雅的controller层设计

同步、通信、死锁

【聚类】谱聚类解读、代码示例

最牛逼的垃圾回收期ZGC(1),简介

微服务的Feign到底是什么

JavaScript 正则表达式

【批处理脚本】-1.15-文件内字符串查找命令find

【手撕面试题】JavaScript（高频知识点二）

Web学习1_HTML

华为OD机试真题Java实现【靠谱的车】真题+解题思路+代码（20222023）

【C++入门（下篇）】C++引用，内联函数，auto关键字的学习

基于合作型Stackerlberg博弈的考虑差别定价和风险管理的微网运行策略研究（Matlab代码实现）

微软PowerBI考试 PL300-选择 Power BI 模型框架【附练习数据】

uni-app学习笔记二十二---使用vite.config.js全局导入常用依赖

Python实现prophet 理论及参数优化

Spring AI与Spring Modulith核心技术解析

DeepSeek 技术赋能无人农场协同作业：用 AI 重构农田管理 “神经网”

ip子接口配置及删除

Android第十三次面试总结（四大组件基础）

NXP S32K146 T-Box 携手 SD NAND（贴片式TF卡）：驱动汽车智能革新的黄金组合

【Redis】笔记｜第8节｜大厂高并发缓存架构实战与优化

scikit-learn机器学习