当前位置：首页 > news >正文

文献阅读：Sparse Low-rank Adaptation of Pre-trained Language Models

news 2026/2/8 15:51:14

文献阅读：Sparse Low-rank Adaptation of Pre-trained Language Models
- 1. 文章简介
- 2. 具体方法介绍
  - 1. SoRA具体结构
  - 2. 阈值选取考察
- 3. 实验 & 结论
  - 1. 基础实验
    - 1. 实验设置
    - 2. 结果分析
  - 2. 细节讨论
    - 1. 稀疏度分析
    - 2. rank分析
    - 3. 参数位置分析
    - 4. 效率考察
- 4. 总结 & 思考

文献链接：https://arxiv.org/abs/2311.11696
GitHub链接：https://github.com/TsinghuaC3I/SoRA

1. 文章简介

这篇文章是清华大学在23年11月发表的一篇针对LLM的高效finetune方面的工作。

众所周知，LLM虽然效果很好，但是由于其极其巨大的参数量，对LLM的finetune一直是一个老大难问题，因此最近针对这方面的研究也是层出不穷，其中最为知名的可能就是微软提出的LoRA算法了，我自己之前也整理了一篇水文来介绍过这篇工作（文献阅读：LoRA: Low-Rank Adaptation of Large Language Models）。

整体上来说，LoRA的核心思路就是用一个额外的Adapter网络来模拟模型finetune之后的参数微扰，使得原始模型的输出加上Adapter模型的输出近似于finetune之后的模型输出。此时，我们只需要train一个很小的adapter就可以来模拟模型的finetune了，既不用改动原始大模型的结构，也不需要增加很多额外的参数。

但是，LoRA有一个比较大的问题就是它默认了微扰对于各个层的影响都是一样的，且都是比较小的，因此LoRA对所有层都共享一个超参，就是adapter中间层的维度。而这个假设事实上是有点强的，因此后续也有一些工作尝试对这个点进行优化，文中提到的一个典型工作就是AdaLoRA，它通过奇异值分解的方式来动态调整不同层所需的Adapter中间层的维度，但是因为他引入了奇异值分解，因此需要挺多的额外计算量，且需要引入一些额外的正交假设。

基于此，文中提出了一个新的他们命名为SoRA的方法，本质上来说，它和AdaLoRA一样，也是希望动态调整不同层中Adapter中间层的维度，但是相较于AdaLoRA，更加简单直接，无需引入额外的假设，且不会增加多少额外的计算量。

下面，我们来具体看一下文中提出的SoRA方法的具体实现和对应的实验以及实验结果。

2. 具体方法介绍

1. SoRA具体结构

下面，我们首先来看一下SoRA的整体结构。

在这里插入图片描述

可以看到，本质上来说，SoRA依然走的还是LoRA的降维投影的模式，不过，SoRA的思路是先给一个较大的中间维度，然后通过 $L_1$ 正则来获取参数的稀疏性，然后通过要给阈值来对维度进行剪裁，使得最终使用的中间矩阵 $W_u$ 与 $W_d$ 是两个较小维度的矩阵。

具体来说的话，我们先给出一个具有较大中间维度的系数投影矩阵 $W_u$ 与 $W_d$ ，这部分的定义是和LoRA完全一样的，然后我们给出一个门向量来对中间维度进行稀疏化剪裁，使得 $W_u$ 与 $W_d$ 当中用不到的部分直接置零被抹去。

具体的扰动量输出结果就是：

$W_u(g \odot (W_d \cdot x))$

然后，关于这个门向量 $g$ 的训练方式的话，就是通过如下的方式：

$g_{t+1} = \Gamma_{\eta_t \cdot \lambda} (g_t - \eta_t \nabla L_{0}(\triangle_t))$

其中，阈值函数的定义为：

$\Gamma_{\xi}(x) = \left\{ \begin{aligned} &x - \xi, && x > \xi \\ &0, && -\xi < x \leq \xi \\ &x + \xi, && x \leq -\xi \\ \end{aligned} \right.$

这个实现的本质事实上就是 $L_1$ 正则，换用另一个等价形式可以写为：

$g_{t+1} = \mathop{argmin}\limits_{g} \eta_t \cdot \lambda \| g \|_1 + \frac{1}{2} \| g - (g_t - \eta_t \nabla L_0(g_t)) \|_2^2$

而这个恰好就是 $L_1$ 正则项：

$L(\triangle) = L_0(\triangle) + \lambda \sum\limits_{k=1}^{K} \| g^{(k)} \|_1$

因此，我们可知 $g$ 会趋向于稀疏，而由此，我们就可以对参数矩阵 $W_u$ 与 $W_d$ 进行降维剪裁。

可以看到，上述实现和AdaLoRA基本上是有异曲同工之妙的，本质上都是先设置一个较大的中间维度之后进行剪裁，不过，相较于AdaLoRA，用文中的话来说，SoRA并没有引入额外的正交限制，且只使用 $L_1$ 正则来动态控制每一层中间层的剪裁力度，因此多少显得更加直接以及优雅一些。

2. 阈值选取考察

最后，文中还讨论了一下上述实现中的阈值参数 $\xi$ 的选择，通过控制 $\xi$ ，我们就可以有效地控制最终的输出向量 $g$ 的稀疏性，因此，关于 $\xi$ 的选择，事实上是需要注意一下的，显然太稀疏的话会影响模型的效果，而太稠密的话那么稀疏化的意义也就没有了，耗费的计算量也大。

因此，文中给出了一个 $\xi$ 的schedule算法如下：

在这里插入图片描述

通过上述算法，文中得到了一系列不同稀疏度的模型，然后对其进行分析就可以获得一些关于 $\xi$ 的直观认知了。

3. 实验 & 结论

下面，我们来看一下文中给出的具体实验内容。

1. 基础实验

1. 实验设置

首先，关于SoRA的具体实验设计方面，文中使用的baseline模型主要包括以下一些：

Adapter
BitFit
LoRA
AdaLoRA

其次，文中使用的实验数据集为GLUE数据集。

最后，关于文中实验所使用的模型，文中主要是使用DeBERTaV3-base和RoBERTa-large模型进行考察，不过主要还是前者为主。

2. 结果分析

下面，我们给出文中得到的基础实验的结果如下：

在这里插入图片描述

可以看到：

SoRA与AdaLoRA的效果相近，均基本都能够干掉LoRA。

为了更好地比较SoRA与LoRA，文中还控制两者在拥有相同的中间维度进行了一下比较，得到结果如下：

在这里插入图片描述

可以看到：

SoRA的参数量均少于LoRA，但是效果基本都能够优于LoRA模型。

2. 细节讨论

然后，我们来看一下文中关于SoRA的细节讨论分析。

1. 稀疏度分析

首先，我们来看一下稀疏度对SoRA效果的影响，文中给出结果示意图如下：

在这里插入图片描述

可以看到：

整体来说，只需要很小的参数量，SoRA的效果就能控制和完整的参数量差不多。

2. rank分析

其次，文中还对不同任务下SoRA在各个层当中保留的中间层的维度进行了分析讨论，得到结果如下：

在这里插入图片描述

可以看到：

不同任务下，SoRA保留的中间层的维度是不相同的，QQP的保留维度明显就要高于QNLI任务；
同一任务当中网络的不同部分所需要保留的中间维度也不尽相同，多数情况下FFW层所需的中间维度是要高于其他部分的。

3. 参数位置分析

此外，文中还对attention层当中QKV矩阵进行了更细致的讨论，看看SoRA分别作用于这几部分时的影响，得到结果如下：

在这里插入图片描述

可以看到：

整体上还是所有部分都使用了SoRA之后能获得最优的效果。

4. 效率考察

最后，文中还对比了SoRA与AdaLoRA的训练效率，得到结果如下：

在这里插入图片描述

可以看到：

相较于AdaLoRA，SoRA在训练上成本更低，耗时更少。

4. 总结 & 思考

综上，文中提出了一个LoRA的优化算法SoRA，目的是动态调整LoRA的中间维度，使得模型可以在保留tuning效果的前提下进一步压缩extra模型的参数量。

当然，考虑到我们当前的工作事实上来LoRA都用不到，根本不涉及LLM的tuning，因此这部分暂时应该也没有机会去上手实操看看了，不过整体上感觉还是非常有价值的一个工作，后面有机会的话还是想试试……

啊啊啊啊啊，我想train模型啊，天天调prompt，真的是烦死了！！！！！

文献阅读：Sparse Low-rank Adaptation of Pre-trained Language Models

文献阅读：Sparse Low-rank Adaptation of Pre-trained Language Models 1. 文章简介2. 具体方法介绍 1. SoRA具体结构2. 阈值选取考察 3. 实验 & 结论 1. 基础实验 1. 实验设置2. 结果分析 2. 细节讨论 1. 稀疏度分析2. rank分析3. 参数位置分析4. 效率考察 4.…...

编程日记 2024/1/8 7:18:45

NCC基础开发技能培训

YonBuilder for NCC 是一个带插件的eclipse工具，跟eclipse没什么区别 NC Cloud2021.11版本开发环境搭建改动 https://nccdev.yonyou.com/article/detail/495 不管是NC Cloud 新手还是老NC开发，在开发NC Cloud时开发环境搭建必看！&#xff…...

编程日记 2024/1/8 7:17:45

Flink中的状态管理

一.Flink中的状态 1.1 概述在Flink中，算子任务可以分为有状态和无状态两种状态。无状态的算子任务只需要观察每个独立事件，根据当前输入的数据直接转换输出结果。例如Map、Filter、FlatMap都是属于无状态算子。而有状态的算子任务，就…...

编程日记 2024/1/8 7:16:44

【linux】线程互斥

线程互斥 1.线程互斥2.可重入VS线程安全3.常见锁的概念喜欢的点赞，收藏，关注一下把！ 1.线程互斥到目前为止我们学了线程概念，线程控制接下来我们进行下一个话题，线程互斥。有没有考虑过这样的一个问题&#xff0c…...

编程日记 2024/1/8 7:14:42

机器学习原理到Python代码实现之LinearRegression

Linear Regression 线性回归模型该文章作为机器学习的第一篇文章，主要介绍线性回归模型的原理和实现方法。更多相关工作请参考：Github 算法介绍线性回归模型是一种常见的机器学习模型，用于预测一个连续的目标变量（也称为响应变…...

编程日记 2024/1/8 7:12:41

Hive SQL / SQL

1. 建表 & 拉取表2. 插入数据 insert select3. 查询3.1 查询语句语法/顺序3.2 关系操作符3.3 聚合函数3.4 where3.5 分组聚合3.6 having 筛选分组后结果3.7 显式类型转换 & select产生指定值的列 4. join 横向拼接4.1 等值连接 & 不等值连接4.2 两表连接4.2.1 内连…...

编程日记 2024/1/8 7:10:39

程序媛的mac修炼手册--MacOS系统更新升级史

啊，我这个口罩三年从未感染过新冠的天选免疫王，却被支原体击倒😷大意了，前几天去医院体检，刚检查完出医院就摘口罩了🤦大伙儿还是要注意戴口罩，保重身体啊！身体欠恙，就闲…...

编程日记 2024/1/8 7:08:36

【数据库原理】（9）SQL简介

一.SQL 的发展历史起源：SQL 起源于 1970 年代，由 IBM 的研究员 Edgar F. Codd 提出的关系模型概念演化而来。初期：Boyce 和 Chamberlin 在 IBM 开发了 SQUARE 语言的原型，后发展成为 SQL。这是为了更好地利用和管理关系数据库。…...

编程日记 2024/1/8 7:06:35

第二百五十二回

文章目录概念介绍实现方法示例代码我们在上一章回中介绍了如何在页面中添加图片相关的内容，本章回中将介绍如何给组件添加阴影.闲话休提，让我们一起Talk Flutter吧。概念介绍我们在本章回中介绍的阴影类似影子，只是它不像影子那么明显&a…...

编程日记 2024/1/8 7:03:32

Leetcode 3701 · Find Nearest Right Node in Binary Tree (遍历和BFS好题)

3701 Find Nearest Right Node in Binary TreePRE Algorithms This topic is a pre-release topic. If you encounter any problems, please contact us via “Problem Correction”, and we will upgrade your account to VIP as a thank you. Description Given a binary t…...

编程日记 2024/1/8 7:02:31

1. 文章简介

2. 具体方法介绍

1. SoRA具体结构

2. 阈值选取考察

3. 实验 & 结论

1. 基础实验

1. 实验设置

2. 结果分析

2. 细节讨论

1. 稀疏度分析

2. rank分析

3. 参数位置分析

4. 效率考察

4. 总结 & 思考

相关文章：