当前位置：首页 > news >正文

LoRA微调

news 2025/7/11 7:43:14

论文：LoRA: Low-Rank Adaptation of Large Language Models

实现：microsoft/LoRA: Code for loralib, an implementation of “LoRA: Low-Rank Adaptation of Large Language Models” (github.com)

摘要

自然语言处理的一个重要的开发范式包括：

对通用领域数据进行大规模的预训练；
对特定任务或领域的适应。

问题：当预训练的模型越来越大，全参数的微调（full fine-tuning）变得比较困难了。

解决方法：Low-Rank Adaptation，简称LoRA，其冻结了预训练的模型权重，并将可训练的秩分解矩阵注入Transformer架构的每一层，大大减少了下游任务的可训练参数的数量。

简介

[1804.08838] Measuring the Intrinsic Dimension of Objective Landscapes

上述文章表明，学习到的过度参数化模型权重实际上存在于一个较低的内在维度空间上。我们假设模型适应过程中权重的变化也具有较低的“内在秩”（也就是只在内在的低维空间中变化），从而提出了低秩适应（LoRA）方法。LoRA允许我们通过优化适应过程中密集层变化的秩分解矩阵，间接地训练神经网络中的一些密集层，同时冻结预训练权重：

低秩适应微调示意图

LoRA有几个关键的优势：

一个预训练模型可以被共享，并用于为不同的任务构建许多小型的LoRA模块。我们可以通过替换低秩适应示意图中的矩阵A和矩阵B来冻结共享模型并有效地切换任务，从而显著地减少了存储需求和任务切换开销。
当使用自适应优化器时，LoRA使训练更高效，并将硬件准入门槛降低了3倍，因为我们不需要为大多数的参数计算梯度或维护其优化器状态。相反，我们只需要优化注入的、小得多的低秩矩阵。
我们简单的线性设计允许我们在部署时通过构造将可训练矩阵与冻结权重合并，与完全微调的模型相比，不会引入推理延迟。
LoRA与许多先前的方法互不影响，并且可以与其中的许多方法结合起来，比如前缀调优（prefix-tuning）。

问题陈述

LoRA并不特定于某个具体的训练目标，这里以语言建模（language modeling）问题为用例进行问题描述。

给定一个以 $\Phi$ 为参数的预训练自回归语言模型 $P_\Phi(y|x)$ 。比如， $P_\Phi(y|x)$ 可以是一个像GPT一样的基于Transformer的通用多任务学习器。考虑将这个预训练模型适应于下游的条件文本生成任务，如摘要、机器阅读理解（MRC）和自然语言转SQL（NL2SQL）。每个下游任务都由一个上下文-目标对训练数据集表示： $\mathcal{Z}=\{(x_i,y_i)\}_{i=1,...,N}$ ，其中 $x_i$ 和 $y_i$ 是token序列。例如，在NL2SQL中， $x_i$ 是一个自然语言查询， $y_i$ 是它对应的SQL命令；对于摘要， $x_i$ 是一篇文章的内容， $y_i$ 是它的摘要。

在全微调过程中，模型被初始化为预训练权重 $\Phi_0$ ，并通过不断累积梯度最终更新为 $\Phi_0 + \Delta\Phi$ ，以最大化条件语言建模目标函数：

$\max _{\Phi} \sum_{(x, y) \in \mathcal{Z}} \sum_{t=1}^{|y|} \log \left(P_{\Phi}\left(y_{t} \mid x, y_{<t}\right)\right)$

全微调的一个主要缺点是，对于每个下游任务，都需要学习了一组不同的参数 $\Delta\Phi$ ，其维数 $|\Delta\Phi|$ 等于 $|\Phi_0|$ 。因此，如果预训练模型很大（比如175B的GPT-3），那么存储和部署许多独立的微调模型实例各方面的开销和压力会比较大。

本文采用了一种更加参数高效（parameter-efficient）的方法，将任务特定的参数增量 $\Delta\Phi=\Delta\Phi\left(\Theta\right)$ 进一步用小得多的参数集 $\Theta$ 进行编码，其中 $|\Theta| \ll |\Phi_0|$ 。所以，寻找 $\Delta\Phi$ 的任务变成了对 $\Theta$ 的优化：

$\max _{\Theta} \sum_{(x, y) \in \mathcal{Z}} \sum_{t=1}^{|y|} \log \left(P_{\Phi_0 + \Delta\Phi(\Theta)}\left(y_{t} \mid x, y_{<t}\right)\right)$

现有方法存在的问题

两种高效适应下游任务的策略：

添加适配器层
对输入层做某种形式的优化

存在的问题：

适配器层引入了推理延迟
直接优化提示是困难的

本文的方法

虽然本文中只关注Transformer语言模型中的某些权重作为用例，但该方法适用于深度学习模型中的任何密集层。

低秩参数化更新矩阵（LOW-RANK-PARAMETRIZED UPDATE MATRICES）

当适应一个特定的任务时，论文Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning表明了预训练语言模型具有较低的“内在维度”，尽管随机投影到更小的子空间，但仍然可以有效地学习。受此启发，做出假设：在适应下游任务的过程中，权重的更新也有一个较低的“内在秩”。对于预训练的权重矩阵 $W_0 \in \mathbb{R}^{d \times k}$ ，使用低秩分解 $W_0+\Delta W = W_0+BA$ 表示后者来约束其更新，其中 $\in \mathbb{R}^{d \times r}$ ， $\in \mathbb{R}^{r \times k}$ 和秩 $\ll \min(d,k)$ 。

在微调过程中， $W_0$ 被冻结，不接收梯度更新，而 $A$ 和 $B$ 包含可训练的参数。 $W_0$ 和 $\Delta W = BA$ 都与相同的输入相乘，它们各自的输出向量按坐标求和。

对于 $h = W_0x$ ，修改后的正向传播为：

$W_0x + \Delta Wx = W_0x + BAx$

可训练参数的初始化：

$A$ ：随机高斯
$B$ ：0

所以 $\Delta W = BA$ 在训练开始时为零。

We then scale $\Delta Wx$ by $\frac{\alpha}{r}$ , where $\alpha$ is a constant in $r$ . When optimizing with Adam, tuning $\alpha$ is roughly the same as tuning the learning rate if we scale the initialization appropriately. As a result, we simply set $\alpha$ to the first $r$ we try and do not tune it. This scaling helps to reduce the need to retune hyperparameters when we vary $r$ .

A Generalization of Full Fine-tuning

一种更一般的微调形式允许训练预训练参数的一个子集。LoRA更进一步，不需要权重矩阵的累积梯度更新在适应过程中具有全秩。这意味着，当将LoRA应用于所有权重矩阵并训练所有偏置项时，通过将LoRA的秩 $r$ 设置为预训练权重矩阵的秩，可以大致恢复完全微调的表达性。换句话说，当增加可训练参数的数量时，训练LoRA将大致收敛为训练原始模型，而基于适配器的方法和基于前缀的方法则分别收敛到一个MLP和一个不能接受长输入序列的模型。
No Additional Inference Latency

当在生产环境中部署时，可以显式地计算和存储任务特定的权重 $W = W_0 + BA$ ，然后将该权重加载进模型并像往常一样执行推理。注意 $W_0$ 和 $B A$ 都在 $\mathbb{R}^{d \times k}$ 中。当需要切换到另一个下游任务时，可以通过减去 $B A$ 来恢复 $W_0$ ，然后加上一个不同的 $B^{\prime}A^{\prime}$ ，这是一个快速的内存开销很少的操作。重要的是，这确保了与通过构造进行微调的模型相比，这种方式在推理过程中没有引入任何额外的延迟。

在Transformer上应用LoRA

原则上，LoRA可以应用于神经网络中的权重矩阵的任何子集，以减少可训练参数的数量。在Transformer架构中，自注意模块中有四个权重矩阵（ $W_q$ 、 $W_k$ 、 $W_v$ 、 $W_o$ ），在MLP模块中有两个。我们将 $W_q$ （或 $W_k$ ， $W_v$ ）视为一个形状为 $d_{model} \times d_{model}$ 的单一矩阵，即使输出维通常被切分成注意力头。

在这里插入图片描述

实际的获益和局限性

获益

最显著的好处来自于内存和存储使用量的减少。对于使用Adam训练的大型Transformer网络，如果 $\ll d_{model}$ ，则VRAM使用量减少 $2/3$ ，因为不需要存储冻结参数的优化器状态。在GPT-3 175B上，训练期间的VRAM消耗从1.2TB减少到350GB。当 $r = 4$ 和只对Query和Value投影矩阵进行调整时，检查点的大小减少了大约10000倍（从350GB减少到35MB）。这让我们可以使用少得多的gpu进行训练，并极大地避免I/O瓶颈。
另一个好处是，通过只切换LoRA的权重，而不是所有的参数，可以在部署后以低得多的开销在不同任务间切换。
我们还观察到，与完全微调相比，在GPT-3 175B上的训练速度提高了25%，因为不需要计算绝大多数参数的梯度。

局限性

例如，如果选择将 $A$ 和 $B$ 吸收到 $W$ 中以消除额外的推理延迟，那么在单次正向传递中批量处理具有不同 $A$ 和 $B$ 的不同任务的输入是很难的。尽管在延迟不是很重要的情况下，可以不合并权重并动态选择用于批处理中的样本的LoRA模块。

理解低秩更新

作者进行了一系列的实证研究来回答以下问题：

给定一个参数预算约束，在预训练的Transformer网络中应该适应权重矩阵的哪个子集以最大化下游性能？
“最优”的适应矩阵 $\Delta W$ 真的是秩亏的吗？如果是这样，在实践中使用什么秩比较好？
$\Delta W$ 和 $W$ 之间有什么关系？ $\Delta W$ 与 $W$ 高度相关吗？与 $W$ 相比， $\Delta W$ 有多大？

我们应该将LORA应用到Transformer中的哪些权重矩阵？

给定有限的参数预算，应该使用LoRA调整哪些类型的权重才能在下游任务上获得最佳性能？这里只考虑自注意力模块中的权重矩阵。在GPT-3 175B上设置了18M的参数预算（如果以FP16存储，大约为35MB），对于所有96层，如果适应一种类型的注意力权重，则对应于 $r = 8$ ；如果适应两种类型，则对应于 $r = 4$ 。以下是实验结果：

在这里插入图片描述

可以看到，将所有参数放入 $\Delta W_q$ 或 $\Delta W_k$ 会导致性能显著降低，而同时调整 $W_q$ 和 $W_v$ 会产生最佳结果。这表明，即使是值为4的秩也能捕获 $\Delta W$ 中足够的信息，因此适应更多的权重矩阵比使用更大的秩适应单一类型的权重更好。

对于LoRA最优的秩 $r$ 是什么

在这里插入图片描述

可以看出，使用一个非常小的 $r$ 就足以让LoRA表现得很好了，这表明更新矩阵 $\Delta W$ 可能有一个非常小的“内在秩”。但是不能指望一个小的 $r$ 适用于每个任务或数据集。假设下游任务使用的语言与预训练所使用的语言不同，则重新训练整个模型（类似于 $r = d_{model}$ 的LoRA）肯定会优于 $r$ 较小的LoRA。为了进一步支持这一发现，作者检查了使用不同的 $r$ 和不同随机种子学习到的子空间的重叠情况，得出结论：增加 $r$ 不覆盖一个更有意义的子空间，这表明一个低秩适应矩阵是足够的。

适应矩阵 $\Delta W$ 与 $W$ 相比如何？

通过计算 $U^{\mathsf{T}}WV^{\mathsf{T}}$ 将 $W$ 投影到 $\Delta W$ 的 $r$ 维子空间上，其中 $U$ / $V$ 是 $\Delta W$ 的左/右奇异向量矩阵，然后计算相应的Frobenius norm。作为比较，我们还将 $U$ 、 $V$ 替换为 $W$ 或一个随机矩阵的前 $r$ 个奇异向量后计算 $\parallel U^{\mathsf{T}}WV^{\mathsf{T}}\parallel_F$ 的值。结果如下：

在这里插入图片描述

从上表可以得出几个结论：

与随机矩阵相比， $\Delta W$ 与 $W$ 有更强的相关性，这表明 $\Delta W$ 放大了 $W$ 中已经存在的一些特征。
$\Delta W$ 没有重复 $W$ 靠前的奇异向量方向，而是只放大了 $W$ 中没有强调的方向。
放大系数相当大：当 $r = 4$ 时，为 $\approx 6.91/0.32$

这表明，低秩适应矩阵潜在地放大了特定下游任务的重要特征，这些特征是通用预训练模型学习到但并未注重的。

LoRA微调

论文：LoRA: Low-Rank Adaptation of Large Language Models 实现：microsoft/LoRA: Code for loralib, an implementation of “LoRA: Low-Rank Adaptation of Large Language Models” (github.com) 摘要自然语言处理的一个重要的开发范式包括&#…...

编程日记 2024/4/15 15:33:23

45.基于SpringBoot + Vue实现的前后端分离-驾校预约学习系统（项目 + 论文）

项目介绍本站是一个B/S模式系统，采用SpringBoot Vue框架，MYSQL数据库设计开发，充分保证系统的稳定性。系统具有界面清晰、操作简单，功能齐全的特点，使得基于SpringBoot Vue技术的驾校预约学习系统设计与实现管理工作…...

编程日记 2024/4/15 15:31:21

系统思考—时间滞延

“没有足够的时间是所有管理问题的一部分。”——彼得德鲁克鱼和熊掌可以兼得，但并不能同时获得。在提出系统解决方案时，我们必须认识到并考虑到解决方案的实施通常会有必要的时间滞延。这种延迟有时比我们预想的要长得多，特别是当方案涉及…...

编程日记 2024/4/15 15:28:17

SSM项目转Springboot项目

SSM项目转Springboot项目由于几年前写的一个ssm项目想转成springboot项目，所以今天倒腾了一下。最近有人需要毕业设计转换一下，所以我有时间的话可以有偿帮忙转换，需要的私信我或＋v：Arousala_ 首先创建一个新的spr…...

编程日记 2024/4/15 15:27:15

VUE3.0对比VUE2.0

vue3.0 与 vue2.0的不同之处有以下几点： 数据响应式原理 3.0基于Proxy的代理实现监测，vue2.0是基于Object.defineProperty实现监测。 vue2.0 通过Object.defineProperty，每个数据属性被定义成可观察的，具有getter和setter方法&…...

编程日记 2024/4/15 15:26:14

车内AR互动娱乐解决方案，打造沉浸式智能座舱体验

美摄科技凭借其卓越的创新能力，为企业带来了革命性的车内AR互动娱乐解决方案。该方案凭借自研的AI检测和渲染引擎，打造出逼真的数字形象，不仅丰富了车机娱乐内容，更提升了乘客与车辆的互动体验，让每一次出行都成为一场…...

编程日记 2024/4/15 15:24:11

OR36 链表的回文结构

描述对于一个链表，请设计一个时间复杂度为O(n),额外空间复杂度为O(1)的算法，判断其是否为回文结构。给定一个链表的头指针A，请返回一个bool值，代表其是否为回文结构。保证链表长度小于等于900。测试样例： 1->…...

编程日记 2024/4/15 15:20:05

【译】微调与人工引导：语言模型调整中的 SFT 和 RLHF

原文地址：Fine-Tuning vs. Human Guidance: SFT and RLHF in Language Model Tuning 本文主要对监督微调（SFT, Supervised Fine Tuning ）和人类反馈强化学习（RLHF, Reinforcement Learning from Human Feedback）进行简…...

编程日记 2024/4/15 15:19:04

kylin java.io.IOException: error=13, Permission denied

linux centos7.8 error13, Permission denied_linux open error13-CSDN博客 chmod -R 777 /home/zengwenfeng/kkFileView-4.2.1 2024-04-15 13:15:17.416 WARN 3400 --- [er-offprocmng-1] o.j.l.office.LocalOfficeProcessManager : An I/O error prevents us to determine…...

编程日记 2024/4/15 15:17:02

前端面试01总结

1.Js 中!x为true 时,x可能为哪些值答: 1.false：布尔值false 2.0或-0：数字零 3.""或’或 （空字符串）：长度为0的字符串 4.null：表示没有任何值的特殊值 5.undefined：变量未定义时的默认…...

编程日记 2024/4/15 15:16:01

算法--目录

algorithm: 十种排序算法二分法-各种应用 algorithm: 拓扑排序算法中的背包问题最长子序列问题前缀和-解题集合差分数组-解题...

编程日记 2024/4/15 15:14:59

ArcGIS Pro 3D建模简明教程

在本文中，我讲述了我最近一直在探索的在 ArcGIS Pro 中设计 3D 模型的过程。我的目标是尽可能避免与其他软件交互（即使是专门用于 3D 建模的软件），并利用 Pro 可以提供的可能性。这个短暂的旅程分为三个不同的阶段：…...

编程日记 2024/4/15 15:10:53

24届数字IC设计/验证秋招总结贴——先看这个

文章目录前言一、经验篇二、知识学习篇三、笔试篇3.1 各大公司笔试真题3.2 华为机试——数字芯片笔试题汇总四、面试篇4.1 时间节点4.2 提前批4.3 正式批前言为方便快速进行查找该专栏的内容，将所有内容链接均放在此篇博客中整理不易，欢迎订阅~~ …...

编程日记 2024/4/15 15:08:51

带洞平面三角分割结果的逆向算法

先标不重复点，按最近逐个插入。只说原理。不带洞的 1 2 4 2 3 4 两个三角形结果 1 2 3 4 无重复无洞 1 2 6 1 2 3 6 1 2 3 7 6 1 2 3 4 7 6 1 2 3 4 5 7 6 1 2 3 4 1 5 7 6 1 2 3 4 1 6 5 7 6 最终结果 1 2 3 4 1 6 5 7 6 按重复分割 1 2 3…...

编程日记 2024/4/15 15:07:47

MGRE-OSPF接口网络类型实验

OSPF接口网络类型实验一，实验拓扑初始拓扑： 最终拓扑： 二，实验要求及分析要求： 1，R6为ISP只能配置IP地址，R1-R5的环回为私有网段 2，R1/R4/R5为全连的MGRE结构，R…...

编程日记 2024/4/15 15:05:45

ChatGPT科研利器详解：写作论文轻松如玩游戏

ChatGPT无限次数:点击直达 ChatGPT科研利器详解：写作论文轻松如玩游戏引言在当今科技日新月异的时代，人工智能技术的应用越来越广泛，其中自然语言处理领域的发展尤为迅猛。ChatGPT作为一款先进的文本生成模型，为科研工作者提供…...

编程日记 2024/4/15 15:04:35

vue3从精通到入门23：定义全局变量

在vue2中，我们知道vue2.x是使用Vue.prototype.$xxxxxxx来定义全局变量， 比如定义一个全局的工具函数。 // 定义 ... Vue.prototype.$utilsutils;// 使用 this.$utils() ... 在vue3中我们无法使用this，提供了globalProperties； …...

编程日记 2024/4/15 15:03:33

反爬虫之代理IP封禁-协采云IP池

反爬虫之代理IP封禁-协采云IP池 1、目标网址2、IP封禁4033、协采云IP池 1、目标网址 aHR0cDovL3d3dy5jY2dwLXRpYW5qaW4uZ292LmNuLw 2、IP封禁403 这个网站对IP的要求很高，短时间请求十几次就会遭关进小黑屋。如下图： 明显是网站进行了反爬处理&…...

编程日记 2024/4/15 15:02:32

ELK-Kibana 部署

目录一、在 node1 节点上操作 1.1.安装 Kibana 1.2.设置 Kibana 的主配置文件 1.3.启动 Kibana 服务 1.4.验证 Kibana 1.5.将 Apache 服务器的日志（访问的、错误的）添加到 ES 并通过 Kibana 显示 1.6. 浏览器访问二、部署FilebeatELK&…...

编程日记 2024/4/15 15:01:31

Backtrader 量化回测实践（7）——在jupyter中执行bt的samples

Backtrader 量化回测实践（7）——在jupyter中执行bt的samples Backtrader提供了大量的测试用例，在samples目录下，测试程序主要都是用argparse解析参数，但是不能在jupyter中直接执行。找到一个解决方法，可…...

编程日记 2024/4/15 14:59:28

Android Wi-Fi 连接失败日志分析

1. Android wifi 关键日志总结 (1) Wi-Fi 断开 (CTRL-EVENT-DISCONNECTED reason3) 日志相关部分： 06-05 10:48:40.987 943 943 I wpa_supplicant: wlan0: CTRL-EVENT-DISCONNECTED bssid44:9b:c1:57:a8:90 reason3 locally_generated1解析： CTR…...

编程新知 2025/6/17 12:57:30

css实现圆环展示百分比，根据值动态展示所占比例

代码如下 <view class""><view class"circle-chart"><view v-if"!!num" class"pie-item" :style"{background: conic-gradient(var(--one-color) 0%,#E9E6F1 ${num}%),}"></view><view v-else …...

编程新知 2025/7/10 2:30:34

边缘计算医疗风险自查APP开发方案

核心目标：在便携设备（智能手表/家用检测仪）部署轻量化疾病预测模型，实现低延迟、隐私安全的实时健康风险评估。一、技术架构设计 #mermaid-svg-iuNaeeLK2YoFKfao {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg…...

编程新知 2025/7/11 4:33:26

在rocky linux 9.5上在线安装 docker

前面是指南，后面是日志 sudo dnf config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sudo dnf install docker-ce docker-ce-cli containerd.io -y docker version sudo systemctl start docker sudo systemctl status docker …...

编程新知 2025/7/10 0:55:45

Rust 异步编程

Rust 异步编程引言 Rust 是一种系统编程语言，以其高性能、安全性以及零成本抽象而著称。在多核处理器成为主流的今天，异步编程成为了一种提高应用性能、优化资源利用的有效手段。本文将深入探讨 Rust 异步编程的核心概念、常用库以及最佳实践。异步编程基础什么是异步…...

编程新知 2025/6/20 11:52:30

EtherNet/IP转DeviceNet协议网关详解

一，设备主要功能疆鸿智能JH-DVN-EIP本产品是自主研发的一款EtherNet/IP从站功能的通讯网关。该产品主要功能是连接DeviceNet总线和EtherNet/IP网络，本网关连接到EtherNet/IP总线中做为从站使用，连接到DeviceNet总线中做为从站使用。在自动…...

编程新知 2025/7/9 10:38:27

Spring AI与Spring Modulith核心技术解析

Spring AI核心架构解析 Spring AI（https://spring.io/projects/spring-ai）作为Spring生态中的AI集成框架，其核心设计理念是通过模块化架构降低AI应用的开发复杂度。与Python生态中的LangChain/LlamaIndex等工具类似，但特别为多语…...

编程新知 2025/6/17 4:17:05