当前位置: 首页 > news >正文

Lucas带你手撕机器学习——岭回归

岭回归(Ridge Regression)

一、背景与引入

在进行线性回归分析时,我们常常面临多重共线性的问题。多重共线性指的是自变量之间高度相关,这会导致回归系数的不稳定性,使得模型的预测能力降低。传统的线性回归通过最小二乘法来拟合数据,但在自变量之间存在共线性时,最小二乘估计(Ordinary Least Squares, OLS)可能产生较大的方差,从而影响模型的可靠性。

为了克服这个问题,岭回归应运而生。岭回归在最小二乘法的基础上引入了正则化(Regularization)技术,通过添加惩罚项来控制模型复杂度,从而提高模型的泛化能力。

二、岭回归的原理

岭回归的基本思想是在线性回归的损失函数中增加一个惩罚项。该惩罚项是所有回归系数的平方和乘以一个非负的超参数 (\lambda)(也称为岭参数)。这种方法通过惩罚大的回归系数来减小模型的复杂度,从而降低模型的方差。

损失函数

岭回归的损失函数可以表示为:

在这里插入图片描述

其中:

  • (y) 是目标变量。
  • (X) 是自变量矩阵。
  • (\beta) 是回归系数。
  • (\lambda) 是惩罚项的强度,控制正则化的程度。
三、数学推导
  1. 最小二乘法

在线性回归中,我们通过最小化以下损失函数来求解回归系数 (\beta):

在这里插入图片描述

  1. 岭回归的损失函数

在岭回归中,我们在最小二乘法的损失函数上添加一个惩罚项,得到如下损失函数:

在这里插入图片描述

  1. 求解岭回归系数

为了找到使损失函数最小化的 (\beta),我们可以对损失函数求导并令其为零。通过矩阵运算,可以得到岭回归的解:

在这里插入图片描述

其中,(I) 是单位矩阵,(\lambda) 是岭参数,控制正则化的强度。通过引入 (\lambda),我们可以有效控制回归系数的大小,减少模型的方差。

四、岭回归的实现
4.1 使用 Sklearn 实现岭回归

在 Python 中,可以使用 scikit-learn 库轻松实现岭回归。以下是一个简单的示例,使用 Ridge 类实现岭回归:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_regression
from sklearn.linear_model import Ridge
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error# 生成模拟数据
X, y, coef = make_regression(n_samples=100, n_features=10, noise=0.1, coef=True, random_state=42)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建岭回归模型
ridge = Ridge(alpha=1.0)  # alpha对应于λ# 拟合模型
ridge.fit(X_train, y_train)# 预测
y_pred = ridge.predict(X_test)# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print("均方误差:", mse)# 可视化真实值与预测值
plt.scatter(y_test, y_pred)
plt.xlabel("真实值")
plt.ylabel("预测值")
plt.title("真实值与预测值的关系")
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='red', linestyle='--')  # y=x 线
plt.show()
4.2 代码解析
  • 数据生成:使用 make_regression 函数生成模拟的线性回归数据集,包括10个特征和一定的噪声。
  • 数据划分:使用 train_test_split 将数据划分为训练集和测试集,测试集占20%。
  • 创建模型:使用 Ridge 类创建岭回归模型,设置超参数 (\alpha)(即惩罚项的强度)。
  • 拟合模型:在训练集上拟合模型。
  • 预测:在测试集上进行预测。
  • 评估模型:使用均方误差(MSE)评估模型性能。
  • 可视化:通过散点图可视化真实值与预测值的关系,并添加y=x线作为基准。
4.3 超参数调优

选择合适的 (\lambda) 值对于岭回归的性能至关重要。可以使用交叉验证(Cross Validation)来选择最佳的超参数。例如,使用 GridSearchCV 来调优 (\alpha):

from sklearn.model_selection import GridSearchCV# 定义参数范围
param_grid = {'alpha': np.logspace(-3, 3, 7)}# 创建岭回归模型
ridge = Ridge()# 进行网格搜索
grid_search = GridSearchCV(ridge, param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)# 输出最佳参数
print("最佳α值:", grid_search.best_params_)

通过交叉验证,可以得到最佳的 (\lambda) 值,进而提高模型的泛化能力。

五、岭回归的优缺点
5.1 优点
  1. 减少方差:通过引入正则化项,岭回归有效减少了回归系数的方差,提高了模型的稳定性。
  2. 处理多重共线性:岭回归在自变量之间存在共线性时,仍然能够提供稳定的估计。
  3. 保留所有特征:与 Lasso 回归不同,岭回归不会将某些特征的系数压缩到零,而是使其趋近于零,从而保留了所有特征的信息。
5.2 缺点
  1. 难以解释:由于岭回归保留所有特征,模型的解释性较差,特别是在特征较多时。
  2. 选择 (\lambda) 的困难:选择合适的 (\lambda) 值可能会增加模型调优的复杂性,尤其是在特征空间较高时。
  3. 计算开销:在特征维度非常高的情况下,计算 ((X^TX + \lambda I)^{-1}) 的开销可能较大。
六、岭回归的应用实例

岭回归在实际应用中有广泛的应用场景,以下是一些常见的应用领域:

  1. 经济学建模:在经济学中,通常会遇到许多自变量之间存在高度相关的情况,岭回归可以用来建立稳健的回归模型。
  2. 基因数据分析:在生物信息学中,基因表达数据通常包含大量特征(基因)和相对较少的样本,岭回归可以帮助克服高维数据中的多重共线性问题。
  3. 房价预测:在房价预测模型中,多个特征(如面积、卧室数量、位置等)可能存在一定的相关性,岭回归可以提供稳定的预测结果。
七、岭回归的扩展

岭回归的基本思想可以扩展到其他类型的回归中,如:

  • 弹性网(Elastic Net):结合了 L1(Lasso)和 L2(Ridge)正则化的优点,适用于特征较多且相关性较强的情况。
  • 偏最小二乘回归(PLS Regression):在自变量存在多重共线性的情况下,采用偏最小二乘法进行回归分析。
八、总结

岭回归是一种强大的线性回归扩展方法,通过引入 L2 正则化项,有效降低了多重共线性对模型的影响。尽管其在解释性和超参数选择上可能存在一定的挑战,但在许多实际应用中,岭回归提供了稳定和可靠的解决方案。随着机器学习和数据分析的发展,岭回归在各个领域的应用仍在不断扩大,为更复杂的数据分析提供了有效的工具。

好的,以下是对岭回归的拓展部分,涵盖其理论延伸、应用示例、与其他方法的比较,以及最新研究方向等内容。


岭回归的拓展

理论延伸
岭回归与其他正则化方法的比较
  • Lasso 回归(Lasso Regression):Lasso 回归通过引入 L1 正则化项,可以将某些特征的回归系数压缩为零,从而实现特征选择。与岭回归相比,Lasso 更适合用于高维特征选择场景,而岭回归则更注重控制多重共线性。

  • 弹性网(Elastic Net):弹性网结合了 L1 和 L2 正则化的优点,适用于特征数量大于样本数量或者存在多重共线性的情况。弹性网的损失函数可以表示为:

在这里插入图片描述

通过调节 (\lambda_1) 和 (\lambda_2),弹性网能够平衡 Lasso 和岭回归的特性,适应不同的建模需求。

适应性岭回归(Adaptive Ridge Regression)

适应性岭回归是一种改进的岭回归方法,试图通过动态调整 (\lambda) 来适应不同特征的重要性。具体来说,该方法根据每个特征的预测能力或重要性来设置不同的惩罚参数,从而提高模型的性能。这一思路可以通过对特征进行预处理或利用交叉验证来实现。

应用示例
环境科学

在环境科学研究中,岭回归被用于处理涉及多个环境因子的复杂模型。例如,在研究气候变化对植物生长影响的模型中,多个气候因子(如温度、降水量、日照时间等)往往相互影响且高度相关。岭回归能够有效减小因共线性带来的预测不稳定性,从而提供更可靠的预测结果。

医疗领域

在医疗领域,岭回归被广泛应用于疾病预测和诊断。例如,分析基因组数据以预测某种疾病的风险时,特征的维度通常很高,且各基因之间可能存在共线性。在这种情况下,岭回归能够帮助研究人员得到更稳定的模型,以识别与疾病相关的基因特征。

金融风险管理

在金融领域,岭回归被用于建立信用评分模型和风险管理模型。例如,银行在评估借款人的信用时,通常会考虑多个因素(如收入、负债、信用历史等),这些因素可能会相互影响。通过岭回归,金融机构能够建立更稳定的评分模型,降低违约风险。

与其他方法的比较

在选择模型时,岭回归通常与其他回归方法进行比较,如 Lasso 回归、逐步回归(Stepwise Regression)、主成分回归(Principal Component Regression)等。以下是它们的比较:

方法特点适用场景
岭回归(Ridge)L2 正则化,适合处理多重共线性,保留所有特征特征多且相关性强
Lasso 回归L1 正则化,可以实现特征选择特征维度大且希望进行特征选择
逐步回归逐步添加或删除特征,根据 AIC/BIC 进行选择特征数量相对较少,容易解释模型
主成分回归先降维再回归,处理高维数据特征数目远大于样本数的情况
最新研究方向

随着机器学习和深度学习的发展,岭回归的应用和理论研究也在不断拓展。以下是一些当前研究的方向:

深度学习与岭回归的结合

近年来,研究人员开始探索将岭回归与深度学习结合的方法,例如在神经网络中引入岭正则化以增强模型的鲁棒性。通过在网络的损失函数中添加 L2 正则化项,可以提高模型的泛化能力,尤其在样本数量不足或特征维度过高的情况下。

高维数据分析

随着生物信息学、金融科技等领域数据维度的迅速增加,研究人员对高维数据的分析提出了新的方法和思路。针对高维数据中的多重共线性问题,研究者们提出了一些改进的岭回归方法,如加权岭回归(Weighted Ridge Regression)等,以增强模型的适应性。

结合贝叶斯方法

贝叶斯方法与岭回归的结合是一个活跃的研究领域。贝叶斯岭回归(Bayesian Ridge Regression)通过对岭回归的参数引入先验分布,能够在小样本情况下提高模型的稳定性与预测能力。这一方法为不确定性量化提供了新的视角。

总结

岭回归是一种强大的回归分析工具,尤其适用于自变量之间存在多重共线性的情况。通过引入 L2 正则化项,岭回归有效降低了模型的方差,提高了预测的稳定性。尽管其在模型解释性和超参数选择上存在一定的挑战,但其在经济学、环境科学、医疗健康等多个领域的广泛应用证明了其价值。

在现代数据分析中,岭回归与其他方法的结合及其理论拓展正在成为研究的热点,未来有望在更复杂的数据集和应用场景中继续发挥重要作用。

相关文章:

Lucas带你手撕机器学习——岭回归

岭回归(Ridge Regression) 一、背景与引入 在进行线性回归分析时,我们常常面临多重共线性的问题。多重共线性指的是自变量之间高度相关,这会导致回归系数的不稳定性,使得模型的预测能力降低。传统的线性回归通过最小…...

C2W4.LAB.Word_Embedding.Part1

理论课:C2W4.Word Embeddings with Neural Networks 文章目录 Word Embeddings First Steps: Data PreparationCleaning and tokenizationSliding window of wordsTransforming words into vectors for the training setMapping words to indices and indices to w…...

hive初体验

1.首先,确保启动了Metastore服务。 runjar就是metastore进程 2.进入hive客户端: 命令:hive 3.操作:没有指定数据库时默认在default 一:创建表:CREATE TABLE test(id INT, name STRING, gender STRING); 完成,show tables看一下 也可以通过hdfs文件系统查看,默认路径…...

云渲染主要是分布式(分机)渲染,如何使用blender云渲染呢?

云渲染主要是分布式(分机)渲染,比如一个镜头同时开20-100张3090显卡的机器渲染,就能同时渲染20-100帧,渲染不仅不占用自己电脑,效率也将增加几十上百倍! blender使用教程如下: 第一…...

WordPress与WP Engine:关键事件时间线

WordPress与WP Engine:关键事件时间线 以下时间线突出了9月和10月之间这场不断升级的WordPress与WP Engine冲突中的关键事件: 9月21日:Matt Mullenweg发布了一篇名为“WP Engine不是WordPress”的博客。 9月22日:Mullenweg批评…...

大数据治理平台建设规划方案(71页WORD)

随着信息化时代的到来,大数据已成为企业管理和决策的重要基础。然而,大数据的快速增长和复杂性给数据的管理和治理带来了巨大挑战。为了有效应对这些挑战,构建一个高效、稳定的大数据治理平台显得尤为重要。 文档介绍: 该平台旨在…...

Maven 项目管理工具

目录 Maven简介 Maven快速上手 Maven详细介绍 Maven工作机制 Maven安装及配置 使用IDEA创建Maven Web工程 Maven简介 Maven是 Apache 开源组织奉献的一个开源项目,可以翻译为“专家”或“内行”。 Maven 的本质是一个项目管理工具,将项目开发和管…...

ubuntu开机启动jar

要在Ubuntu系统上开机启动一个jar文件,你可以创建一个systemd服务单元。以下是创建服务并设置开机启动的步骤: 创建一个新的systemd服务文件。 打开一个新的服务文件,例如/etc/systemd/system/your-service.service,使用你喜欢的…...

【目标检测02】非极大值抑制 NMS

文章目录 1. 前言2. 原理3. 代码实现 1. 前言 在检测图像中的目标时,一个目标可能会被预测出多个矩形框,而实际上我们只需要一个,如何消除冗余的边界框呢?一种方简单的方案是提升置信度的阈值,过滤掉低置信度的边界框…...

104协议调试工具

在学习104协议过程中,通过直接阅读协议的学习方式会略有枯燥,这里把常用的104调试、测试工具介绍给大家,以便快速的进行模拟通信来更好的了解、学习104协议。 通信协议分析及仿真软件是非常重要的测试工具,该软件支持 101,104,mo…...

日常记录:es TransportClient添加证书处理

背景 最近在搞es登录,不知道是不是低版本问题(6.8.12),开启登录之后springboot连接es,es一直报Caused by: io.netty.handler.ssl.NotSslRecordException: not an SSL/TLS record: 45530000002c000000000000009108004d3…...

apply call bind 简介

Function.prototype.call(thisArg [, arg1, arg2, …]) call() 简述 call() 方法 调用一个函数, 其具有一个指定的 this 值和分别地提供的参数(参数的列表)。当第一个参数为 null、undefined 的时候, 默认 this 上下文指向window。 call() 简单实例 const name …...

数据结构 单调栈

应用情景 求当前元素 前面/后面,第一个比它 小/大 的元素的 值/下标/下标距离 优点 剔除重复寻路操作,将暴力 O(n^2) 优化到 O(n) 性质 从栈底开始,元素 单调递增/单调递减 单调性视具体情景而定 (找较大值还是较小值、找的方向) 思路…...

【NodeJS】NodeJS+mongoDB在线版开发简单RestfulAPI (七):MongoDB的设置

本项目旨在学习如何快速使用 nodejs 开发后端api,并为以后开展其他项目的开启提供简易的后端模版。(非后端工程师) 由于文档是代码写完之后,为了记录项目中需要注意的技术点,因此文档的叙述方式并非开发顺序&#xff0…...

基于flask和neo4j的医疗知识图谱展示问答系统

如果你仍在为毕业设计的选题发愁,或者想通过技术项目提升专业实力,这个基于Flask和Neo4j的医疗知识图谱展示与问答系统,绝对是个不错的选择! 项目亮点大揭秘: 知识图谱与问答结合:我们采用了医疗场景下的知…...

Python——脚本实现datax全量同步mysql到hive

文章目录 前言一、展示脚本二、使用准备1、安装python环境2、安装EPEL3、安装脚本执行需要的第三方模块 三、脚本使用方法1、配置脚本2、创建.py文件3、执行脚本4、测试生成json文件是否可用 前言 在我们构建离线数仓时或者迁移数据时,通常选用sqoop和datax等工具进…...

Python爬虫教程:从入门到精通

Python爬虫教程:从入门到精通 前言 在信息爆炸的时代,数据是最宝贵的资源之一。Python作为一种简洁而强大的编程语言,因其丰富的库和框架,成为了数据爬取的首选工具。本文将带您深入了解Python爬虫的基本概念、实用技巧以及应用…...

pytorh学习笔记——cifar10(四)用VGG训练

1、新建train.py,执行脚本训练模型: import os import timeimport torch import torch.nn as nn import torchvisionfrom vggNet import VGGbase, VGGNet from load_cifar import train_loader, test_loader import warnings import tensorboardX# 忽略…...

CRLF、UTF-8这些编辑器右下角的选项的意思

经常使用编辑器的小伙伴应该经常能看到右下角会有这么两个选项,下图是VScode中的示例,那么这两个到底是啥作用呢? 目录 字符编码ASCII 字符集GBK 字符集Unicode 字符集UTF-8 编码 换行 字符编码 此部分参考博文 在计算机中,所有…...

【C++干货篇】——类和对象的魅力(四)

【C干货篇】——类和对象的魅力(四) 1.取地址运算符的重载 1.1const 成员函数 将const修饰的成员函数称之为const成员函数,const修饰成员函数放到成员函数参数列表的后面。const实际修饰该成员函数隐含的this指针(this指向的对…...

NomNom终极指南:3个技巧让你轻松掌控《无人深空》存档

NomNom终极指南:3个技巧让你轻松掌控《无人深空》存档 【免费下载链接】NomNom NomNom is the most complete savegame editor for NMS but also shows additional information around the data youre about to change. You can also easily look up each item indi…...

ThunderAI:开箱即用的桌面AI助手,聚合Ollama与多模型应用实战

1. 项目概述:一个开箱即用的AI助手桌面应用最近在折腾本地AI应用的时候,发现了一个挺有意思的项目,叫ThunderAI。这名字听着就挺带劲,像一道闪电,主打的就是一个“快”和“直接”。简单来说,它就是一个基于…...

C++智能指针详解:原理、使用及避坑指南

文章目录 前言 一、智能指针核心原理:RAII机制 二、C常用智能指针详解(重点掌握后两种) 三、智能指针高频坑点(重中之重) 四、三大智能指针对比(选择指南) 五、实战案例:智能指…...

告别编译地狱!树莓派4B上快速部署face_recognition库的三种方法(含OpenCV轻量安装)

树莓派4B人脸识别开发环境快速部署指南 每次在树莓派上配置人脸识别开发环境,最让人头疼的就是漫长的编译等待和层出不穷的依赖问题。特别是OpenCV这个计算机视觉领域的"瑞士军刀",完整编译动辄需要数小时,稍有不慎就会前功尽弃。本…...

如何高效使用DdddOcr:免费开源的离线验证码识别终极指南

如何高效使用DdddOcr:免费开源的离线验证码识别终极指南 【免费下载链接】ddddocr 带带弟弟 通用验证码识别OCR pypi版 项目地址: https://gitcode.com/gh_mirrors/dd/ddddocr 在当今数字世界中,验证码识别已成为自动化测试、数据采集和网络安全测…...

从临床试验到互联网AB测试:边缘结构模型(MSM)如何解决你的‘时变混杂’难题

从临床试验到互联网AB测试:边缘结构模型如何破解动态混杂困局 当我们在互联网产品中测试一个新功能对用户留存率的影响时,常常会遇到一个棘手的问题:用户的行为会随着时间不断变化。比如,早期接触新功能的用户可能因为新鲜感而产生…...

RAG视觉锚定:让大模型精准定位PDF中的图与表

1. 项目概述:让大模型真正“看见”文档里的图与表 “Visual Grounding for Advanced RAG Frameworks”——这个标题乍看像学术论文的副标题,但在我过去三年落地二十多个企业级RAG项目的过程中,它直指当前最棘手、也最容易被忽视的痛点&#x…...

Sora 2视频生成质量跃升47%的关键——Gaussian Splatting空间梯度重参数化技术(独家逆向工程报告)

更多请点击: https://intelliparadigm.com 第一章:Sora 2视频生成质量跃升47%的实证观测与技术归因 近期在多个基准测试中,Sora 2在UCF101-VideoQA、TVD和VidBench v2上的平均PSNR提升达47.2%,SSIM同步上升39.8%,关键…...

QQ音乐加密文件解密终极指南:qmcdump工具完整教程

QQ音乐加密文件解密终极指南:qmcdump工具完整教程 【免费下载链接】qmcdump 一个简单的QQ音乐解码(qmcflac/qmc0/qmc3 转 flac/mp3),仅为个人学习参考用。 项目地址: https://gitcode.com/gh_mirrors/qm/qmcdump 你是否曾经…...

嵌入式开发十年痛点解析:技术栈、多核与安全的实战解法

1. 从一场会议邀约说起:嵌入式程序员的“午夜惊魂”前几天整理旧资料,翻到了2014年嵌入式系统大会(ESC)编程专题的公开征集帖,发起人是当时ARM的培训经理Chris Shore。帖子标题很有意思,叫“什么让你夜不能…...