【机器学习】- L1L2 正则化操作
目录
- 0.引言
- 1.正则化的基本思想
- 2.L1 正则化
- 3.L2 正则化
- 4.L1 与 L2 正则化的比较
- 5.应用:控制模型复杂度
- 6.超参数 λ \lambda λ 的选择
- 7.总结
0.引言
在机器学习中,正则化是一种通过约束模型参数来控制模型复杂度的技术。它可以有效减少过拟合,提高模型的泛化能力。常见的正则化方法包括 L1 正则化 和 L2 正则化。
1.正则化的基本思想
在训练模型时,我们的目标是最小化损失函数。正则化通过在损失函数中加入一个正则化项,对模型参数施加约束,从而避免过于复杂的模型。
带有正则化的损失函数一般形式为:
损失函数 = 数据误差 + λ ⋅ 正则化项 \text{损失函数} = \text{数据误差} + \lambda \cdot \text{正则化项} 损失函数=数据误差+λ⋅正则化项
其中:
- 数据误差:如均方误差 (MSE) 或交叉熵损失。
- 正则化项:对模型参数的约束,如 L 1 L1 L1 或 L 2 L2 L2。
- λ \lambda λ:正则化强度(超参数),控制正则化项的权重。
2.L1 正则化
-
定义
L1 正则化的正则化项是模型参数的绝对值之和:R ( w ) = ∥ w ∥ 1 = ∑ i = 1 n ∣ w i ∣ R(\boldsymbol{w}) = \|\boldsymbol{w}\|_1 = \sum_{i=1}^n |w_i| R(w)=∥w∥1=i=1∑n∣wi∣
L1 正则化后的损失函数为:
L = 数据误差 + λ ∑ i = 1 n ∣ w i ∣ L = \text{数据误差} + \lambda \sum_{i=1}^n |w_i| L=数据误差+λi=1∑n∣wi∣
-
特性
- 通过惩罚参数的绝对值,鼓励某些参数变为零。
- 适合特征选择,因为它会自动剔除不重要的特征(参数为零)。
-
适用场景
- 特征数量较多,且希望通过稀疏性来筛选重要特征(如高维数据)。
3.L2 正则化
-
定义
L2 正则化的正则化项是模型参数的平方和:R ( w ) = ∥ w ∥ 2 2 = ∑ i = 1 n w i 2 R(\boldsymbol{w}) = \|\boldsymbol{w}\|_2^2 = \sum_{i=1}^n w_i^2 R(w)=∥w∥22=i=1∑nwi2
L2 正则化后的损失函数为:
L = 数据误差 + λ ∑ i = 1 n w i 2 L = \text{数据误差} + \lambda \sum_{i=1}^n w_i^2 L=数据误差+λi=1∑nwi2
-
特性
- 通过惩罚参数的平方值,鼓励模型参数较小但不为零。
- 与 L1 不同,它不会让参数变为完全零,而是接近零。
-
适用场景
- 当希望模型平滑,避免过度拟合时(如线性回归)。
4.L1 与 L2 正则化的比较
特性 | L1 正则化 | L2 正则化 |
---|---|---|
正则化项 | ∣ w ∣ 1 = ∑ w i |\boldsymbol{w}|_1 = \sum w_i ∣w∣1=∑wi | ∣ w ∣ 2 2 = ∑ w i 2 |\boldsymbol{w}|_2^2 = \sum w_i^2 ∣w∣22=∑wi2 |
参数特性 | 产生稀疏解(参数可能为零) | 参数更平滑(接近零但不为零) |
特征选择 | 可以选择特征 | 不适用于特征选择 |
计算效率 | 非凸优化,计算复杂 | 凸优化,计算简单 |
适用场景 | 高维稀疏数据 | 常规数据,避免过拟合 |
5.应用:控制模型复杂度
-
减少过拟合
- 正则化通过限制参数的幅度,避免模型过度拟合训练数据中的噪声。
-
提高泛化能力
- 限制模型复杂度,使其在新数据上表现更稳定。
-
特征选择
- L1 正则化的稀疏性帮助自动选择重要特征。
6.超参数 λ \lambda λ 的选择
正则化强度 λ \lambda λ 是一个超参数,其值需要通过交叉验证或网格搜索来选择。
- λ \lambda λ 较小:
- 正则化效果弱,模型复杂度高,容易过拟合。
- λ \lambda λ 较大:
- 正则化效果强,模型复杂度低,可能导致欠拟合。
7.总结
正则化是控制模型复杂度的重要方法,通过引入 L1 或 L2 正则化项,既可以提高模型的泛化能力,又可以在某些场景下实现特征选择。合理设置正则化强度 λ \lambda λ,能够帮助模型在偏差与方差之间取得良好的平衡。
相关文章:
【机器学习】- L1L2 正则化操作
目录 0.引言1.正则化的基本思想2.L1 正则化3.L2 正则化4.L1 与 L2 正则化的比较5.应用:控制模型复杂度6.超参数 λ \lambda λ 的选择7.总结 0.引言 在机器学习中,正则化是一种通过约束模型参数来控制模型复杂度的技术。它可以有效减少过拟合ÿ…...
Logback实战指南:基础知识、实战应用及最佳实践全攻略
背景 在Java系统实现过程中,我们不可避免地会借助大量开源功能组件。然而,这些组件往往功能丰富且体系庞大,官方文档常常详尽至数百页。而在实际项目中,我们可能仅需使用其中的一小部分功能,这就造成了一个挑战&#…...
基于python的机器学习(三)—— 关联规则与推荐算法
目录 一、关联规则挖掘 1.1 基本概念 1.2 Apriori算法 1.2.1 Apriori算法的原理 1.2.2 Apriori算法的实例 1.2.3 Apriori算法的程序实现(efficient-apriori模块) 1.3 FP-Growth算法 1.3.1 FP-Growth算法的原理 1.3.2 FP-Growth算法的实例 二、…...
【大模型】LLaMA: Open and Efficient Foundation Language Models
链接:https://arxiv.org/pdf/2302.13971 论文:LLaMA: Open and Efficient Foundation Language Models Introduction 规模和效果 7B to 65B,LLaMA-13B 超过 GPT-3 (175B)Motivation 如何最好地缩放特定训练计算预算的数据集和模型大小&…...
模拟器多开限制ip,如何设置单窗口单ip,每个窗口ip不同
很多手游多开玩家都是利用安卓模拟器实现手游多开,但是很多手游会限制ip,导致多开之后封号等问题,模拟器本身没有更换IP的功能,就需要通过第三方软件来实现 安卓模拟器概述 雷电模拟器、夜神模拟器、mum模拟器等都是目前市场上比较…...
hive的存储格式
1) 四种存储格式 hive的存储格式分为两大类:一类纯文本文件,一类是二进制文件存储。 Hive支持的存储数据的格式主要有:TEXTFILE、SEQUENCEFILE、ORC、PARQUET 第一类:纯文本文件存储 textfile: 纯文本文件存储格式…...
鸿蒙学习高效开发与测试-应用程序框架(3)
文章目录 1、应用程序框架1、规范化后台进程管理2、原生支持分布式3、支持多设备的统一窗口管理4、 组件共享及面向对象5、逻辑与界面解耦6、灵活扩展机制2、HarmonyOS SDK1、 开放能力 Kit2、开放能力的检索和使用3、 方舟工具链4、前端编译器架构1、应用程序框架 应 用 程 序…...
什么命令可以查看数据库中表的结构
1. MySQL 查看表结构 sql 复制代码 DESCRIBE 表名; 或者: sql 复制代码 SHOW COLUMNS FROM 表名; 更详细的表信息 sql 复制代码 SHOW CREATE TABLE 表名; 2. PostgreSQL 查看表结构 sql 复制代码 \d 表名 列出表的字段及类型 sql 复制代码 SELECT column_name, da…...
django基于python 语言的酒店推荐系统
摘 要 酒店推荐系统旨在提供一个全面酒店推荐在线平台,该系统允许用户浏览不同的客房类型,并根据个人偏好和需求推荐合适的酒店客房。用户可以便捷地进行客房预订,并在抵达后简化入住登记流程。为了确保连续的住宿体验,系统还提供…...
【深度学习|onnx】往onnx中写入训练的超参或者类别等信息,并在推理时读取
1、往onnx中写入 在训练完毕之后,我们先使用torch.onnx.export() 导出onnx模型,然后我们再使用以下代码来往metadata中写入信息: # Metadatad {# stride: int(max(model.stride)),names: model.names,mean : [0,0,0],std : [1,1,1],normali…...
WebSocket详解、WebSocket入门案例
目录 1.1 WebSocket介绍 http协议: webSocket协议: 1.2WebSocket协议: 1.3客户端(浏览器)实现 1.3.2 WebSocket对象的相关事宜: 1.3.3 WebSOcket方法 1.4 服务端实现 服务端如何接收客户端发送的请…...
05_Spring JdbcTemplate
在继续了解Spring的核心知识前,我们先看看Spring的一个模板类JdbcTemplate,它是一个JDBC的模板类,用来简化JDBC的操作。 接下来以实际来进行说明 一、实例环境准备 数据库及表准备 我们在本地mysql中新增一个数据库test,并新增一张数据表:user create database if not…...
Bug:引入Feign后触发了2次、4次ContextRefreshedEvent
Bug:引入Feign后发现监控onApplication中ContextRefreshedEvent事件触发了2次或者4次。 【原理】在Spring的文档注释中提示到: Event raised when an {code ApplicationContext} gets initialized or refreshed.即当 ApplicationContext 进行初始化或者刷…...
最新VSCode保姆级安装教程(附安装包)
文章目录 一、VSCode介绍 二、VSCode下载 下载链接:https://pan.quark.cn/s/19a303ff81fc 三、VSCode安装 1.解压安装文件:双击打开并安装VSCode 2.勾选我同意协议:然后点击下一步 3.选择目标位置:点击浏览 4.选择D盘安装&…...
layui 表格点击编辑感觉很好用,实现方法如下
1. 在 HTML 页面中引入 layui 的相关资源文件:html <link rel"stylesheet" href"https://cdn.staticfile.org/layui/2.5.6/css/layui.css"> <script src"https://cdn.staticfile.org/layui/2.5.6/layui.js"></script&…...
三十一、构建完善微服务——API 网关
一、API 网关基础 系统拆分为微服务后,内部的微服务之间是互联互通的,相互之间的访问都是点对点的。如果外部系统想调用系统的某个功能,也采取点对点的方式,则外部系统会非常“头大”。因为在外部系统看来,它不需要也没…...
非对称之美(贪心)
非对称之美(贪心) import java.util.*; public class Main{public static void main(String[] arg) {Scanner in new Scanner(System.in);char[] ch in.next().toCharArray(); int n ch.length; int flag 1;for(int i 1; i < n; i) {if(ch[i] ! ch[0]) {flag …...
详细教程-Linux上安装单机版的Hadoop
1、上传Hadoop安装包至linux并解压 tar -zxvf hadoop-2.6.0-cdh5.15.2.tar.gz 安装包: 链接:https://pan.baidu.com/s/1u59OLTJctKmm9YVWr_F-Cg 提取码:0pfj 2、配置免密码登录 生成秘钥: ssh-keygen -t rsa -P 将秘钥写入认…...
C#桌面应用制作计算器进阶版01
基于C#桌面应用制作计算器做出了少量改动,其主要改动为新增加了一个label控件,使其每一步运算结果由label2展示出来,而当点击“”时,最终运算结果将由label1展示出来,此时label清空。 修改后运行效果 修改后全篇代码 …...
[开源] 告别黑苹果!用docker安装MacOS体验苹果系统
没用过苹果电脑的朋友可能会对苹果系统好奇,有人甚至会为了尝鲜MacOS去折腾黑苹果。如果你只是想体验一下MacOS,这里有个更简单更优雅的解决方案,用docker安装MacOS来体验苹果系统。 一、项目简介 项目描述 Docker 容器内的 OSX(…...
多模态大模型(4)--InstructBLIP
BLIP-2通过冻结的指令调优LLM以理解视觉输入,展示了在图像到文本生成中遵循指令的初步能力。然而,由于额外的视觉输入由于输入分布和任务多样性,构建通用视觉语言模型面临很大的挑战。因而,在视觉领域,指令调优技术仍未…...
【Linux】基于 Busybox 构建嵌入式 Linux(未完成)
嵌入式 Linux 1.需要 Toolchain 2.需要 Bootloader 3.需要嵌入式 Linux 基本组件: Linux kernelDTBRoot filesystem InitShellDaemonShared librariesConfiguration fileDevice nodeproc and sysKernel Module 基于 Busybox 构建 1.编译 Linux kernel 2.编译 …...
Unet++改进38:添加GLSA(2024最新改进方法)具有聚合和表示全局和局部空间特征的能力,这有利于分别定位大目标和小目标
本文内容:添加GLSA注意力机制 目录 论文简介 1.步骤一 2.步骤二 3.步骤三 4.步骤四 论文简介 基于变压器的模型已经被广泛证明是成功的计算机视觉任务,通过建模远程依赖关系和捕获全局表示。然而,它们往往被大模式的特征所主导,导致局部细节(例如边界和小物体)的丢失…...
c++中mystring运算符重载
#include <iostream> #include <cstring>using namespace std;class mystring {char* buf; public:mystring(); //构造函数mystring(const char * str); //构造函数mystring(const mystring& str); //深拷贝函数void show(); //输出函数void setmystr(const my…...
图像处理 - 色彩空间转换
色彩空间转换的含义与原理 色彩空间转换是指将一种颜色模型或表示方式中的颜色数据映射到另一种颜色模型中的过程。色彩空间(Color Space)本质上是一个三维坐标系统,每个点都表示图像中的某种颜色。在实际应用中,由于不同的色彩空…...
MariaDB面试题及参考答案
什么是 MariaDB? MariaDB 是一个开源的关系型数据库管理系统,它是 MySQL 数据库的一个分支。它的主要目的是存储和管理数据,采用了关系模型,数据存储在表中,表之间可以通过关联建立关系。 从起源来讲,Maria…...
PostgreSQL常用字符串函数与示例说明
文章目录 coalesce字符串位置(position strpos)字符串长度与大小写转换去掉空格(trim ltrim rtrim)字符串连接(concat)字符串替换简单替换(replace)替换指定位置长度(overlay)正则替换(regexp_replace) 字符串匹配字符串拆分split_part(拆分数组取指定位置的值)string_to_array…...
力扣第58题:最后一个单词的长度
力扣第58题是 最后一个单词的长度,具体要求是给定一个字符串,找到其最后一个单词的长度。 题目描述 输入:一个由字母和空格组成的字符串 s,可以包含大小写字母和若干空格。 输出:最后一个单词的长度。 注意…...
【Maven】Nexus几个仓库的介绍
在 Nexus 仓库管理器中,maven-central、maven-public、maven-releases 和 maven-snapshots 是常用的 Maven 仓库类型。每个仓库都有其特定的用途和功能。以下是对这些仓库的详细介绍: 1. maven-central 类型:代理仓库(Proxy Rep…...
SSH免密登陆
一、生成SSH密钥对 在客户端主机 ClientHost上,以 root用户身份生成SSH密钥对: ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" # -t rsa:指定使用RSA算法 # -b 4096:指定密钥长度为4096位 # -C ""…...
php下载站源码/网络推广外包要多少钱
MySQL配置参数优化 本文来自道森学习笔记,版权归 http://wubx.net/ 所有 MyISAM存储引擎优化 涉及参数如下: Key_buffery_size Concurrent_insert 2 | WAAYS Bulk_insert_buffer_size8M Myisam_recover_optionsFORCE Myisam_recover_threads1 Myisam_so…...
wordpress xiu底部广告/武汉百度推广外包
char c cv::waitKey(20);while (1)//读视频的循环{if(c ) { cv::waitKey(0);}if(cq | | cQ){break;}}...
阿里爸爸网站建设策划书/免费seo视频教学
日前,我司 CTO 黄东旭接受了即将开幕的 WOT2018 全球软件与运维技术峰会记者的采访,介绍了 TiDB 作为 HTAP 数据库的技术思考及应用情况,以及 PingCAP 自创立以来对开源的一些心得,以下是报道原文。Enjoy~作者…...
全屏背景网站如何做到自适应/厦门seo网络优化公司
7月1日,由工信部、网信办、发改委指导,数据中心联盟(www.dca.org.cn)筹建的“大数据发展促进委员会”(China Big Data Council,简称BDC)在京正式成立,数促会主任委员由中国信息通信研究院余晓晖…...
网站推广公司兴田德润/网络推广外包公司干什么的
ruby 变量类中范围Ranges are a sequence of data. For example, numbers 0 through 9 are a range. Letters a through z are a range. We can also define our own range. 范围是数据序列。 例如,数字0到9是一个范围。 字母a到z是一个range 。 我们还可以定义自己…...
flash做网站的论文/搭建网站费用是多少
因为业务需求所以需要一个ID生成器,要求生成器16位ID唯一。UUID太长不适合需求,所以琢磨了一个。总体思路就是,借助UUID(毕竟人家全球唯一,自己写太麻烦了)生成一个baseID,然后搞个位权出来进行…...