当前位置：首页 > news >正文

VoCo-LLaMA: Towards Vision Compression with Large Language Models

news 2026/2/8 22:00:55

视觉语言模型在各种多模态任务上取得了显著的成功，但经常受到有限上下文窗口和处理高分辨率图像输入和视频的高计算成本的瓶颈。视觉压缩可以通过减少视觉令牌数量避免该问题。先前方法使用额外模块压缩视觉令牌并强制LLM理解压缩的令牌。然而，LLM对视觉令牌的理解范式在压缩学习过程中没有充分利用。本文提出了VoCo-LLaMA，这是第一种使用LLM压缩视觉视觉令牌的方法。通过在视觉指令调整过程中引入视觉压缩令牌并利用注意力蒸馏，本文方法蒸馏了LLM如何将LLM视觉令牌理解到它们对VoCo令牌的处理。

VoCo-LLaMA

本文VoCo-LLaMA算法引入特殊的视觉压缩（Vision Compression，VoCo）令牌，以利用LLM压缩和理解图像压缩表示的能力。大语言模型输入序列由连接视觉令牌，特殊的VoCo令牌和文本令牌形成。

$\mathcal{X}=(\mathcal{V},VoCo,\mathcal{T})=(V_{0},\ldots,V_{n},VoCo,T_{0},\ldots,T_{m})$

在训练阶段，使用两阶段注意力机制。最初，本文对文本令牌施加一个约束，明确阻止它们关注原始视觉令牌，同时强迫它们只关注压缩和蒸馏的VoCo令牌。随后由于casual Transformer，视觉令牌受到VoCo令牌的持续关注。这种刻意的设计保证了文本令牌只捕捉VoCo令牌中编码的蒸馏视觉信息，而不是直接与原始视觉令牌交互，实现了从视觉令牌到压缩令牌的压缩蒸馏。

VoCo-LLaMA的压缩过程可以战略性地通过调整注意力掩码优雅地实现。具体地，将文本令牌和视觉令牌之间注意力权重设置为False。 $\mathbf{M}\in \mathbb{R}^{(m+n-1)\times (m+n-1)}$ 为注意力掩码。定义调整后注意力掩码为：

$M_{i j}=\left\{\begin{array}{ll} \text { True, } & \text { if } i \in \mathcal{T} \text { and } j \in V o C o, \\ \text { False, } & \text { if } i \in \mathcal{T} \text { and } j \in \mathcal{V}, \\ \text { True, } & \text { otherwise. } \end{array}\right.$

值得注意的是本文对注意力掩码的修改是基于仅解码器模型（如LLaVA）中casual注意力掩码实现，该模型被初始化为左下三角矩阵。实践中，VoCo-LLaMA可以在标准的监督微调范式下进行有效训练，利用VLM中现成的大量图像文本数据。此外，VoCo令牌可以紧凑地表示为一组Transformer激活，允许缓存它们以提高推理效率。

VoCo-LLaMA使得大语言模型能够学习视觉令牌的压缩过程 $VoCo(\mathcal{V})$ ，通过学习理解压缩的VoCo令牌，例如学习分布 $p_{VoCo}(y|VoCo(\mathcal{V}),\mathcal{T})$ 。优化目标可以描述为：
$L(VLM_{o},VoCo)=E_{\mathcal{V},\mathcal{T}}[D_{KL}(p_{VLM_{o}}(y|\mathcal{V},\mathcal{T}))||p_{VoCo}(y|VoCo(\mathcal{V}),\mathcal{T}))]$

另外本文的设计还提供了一个额外的优势：VoCo令牌在压缩过程中专门与输入文本交互，在视觉与文本模态之间建立无缝通道。这使得本文算法能够毫不费力地将压缩视觉信息与文本模态对齐，无需专门的文本视觉感知多模态对齐模块设计

VoCo-LLaMA: Towards Vision Compression with Large Language Models

VoCo-LLaMA

相关文章：

VoCo-LLaMA: Towards Vision Compression with Large Language Models

Vue+vite 组件开发的环境准备

基于社区发现的GraphRAG思路

react学习记录

Day2——需求分析与设计

VScode离线下载扩展安装

【机器学习】机器学习的基本分类-监督学习-决策树（Decision Tree）

【第 1 章初识 C 语言】1.8 使用 C 语言的 7 个步骤

Docker 使用 Dockerfile 文件打包部署前端项目

HTML-全

高效流程图绘制：开发设计流程图利器

数据仓库的概念

AI - 谈谈RAG中的查询分析（2）

Java基础面试题，46道Java基础八股文（4.8万字，30+手绘图）

taro小程序马甲包插件

【分组去重】.NET开源 ORM 框架 SqlSugar 系列

2020年

基于Matlab卡尔曼滤波的GPS/INS集成导航系统研究与实现

《只狼》运行时提示“mfc140u.dll文件缺失”是什么原因？“找不到mfc140u.dll文件”要怎么解决？教你几招轻松搞定

C语言：指针与数组

应用升级/灾备测试时使用guarantee 闪回点迅速回退

【位运算】消失的两个数字（hard）

【python异步多线程】异步多线程爬虫代码示例

pikachu靶场通关笔记22-1 SQL注入05-1-insert注入(报错法)

管理学院权限管理系统开发总结

TSN交换机正在重构工业网络，PROFINET和EtherCAT会被取代吗？

医疗AI模型可解释性编程研究：基于SHAP、LIME与Anchor

在Spring Boot中集成RabbitMQ的完整指南

华为云Flexus+DeepSeek征文 | 基于Dify构建具备联网搜索能力的知识库问答助手

学习 Hooks【Plan - June - Week 2】