当前位置：首页 > news >正文

LLMs瞬间获得视觉与听觉感知，无需专门训练：Meta的创新——在图像、音频和视频任务上实现最优性能。

news 2026/2/8 11:03:34

引言：

问题：

当前的多模态任务（如图像、视频、音频描述生成、编辑、生成等）通常需要针对特定任务训练专门的模型，而现有的方法在跨模态泛化方面存在局限性，难以适应新任务。此外，多模态嵌入反演等问题通常依赖梯度优化，限制了其实用性。

解决方案：

MILS（Multimodal Iterative LLM Solver） 是一种免训练的方法，通过迭代反馈机制，让大语言模型（LLM）作为“生成器”提出候选方案，并使用现成的多模态模型（如 CLIP）作为“评分器”对方案进行评估和反馈，最终收敛至高质量的解决方案。该方法无需额外训练，能够适用于多种多模态任务。

一：MILS是什么原理-结构？

MILS是免训练的（training-free），仅使用测试样本作为输入。它依赖于两个关键模块，称为 GENERATOR（生成器）和 SCORER（评分器）。GENERATOR 生成任务的候选解决方案，而 SCORER 对这些候选方案进行评分，并将它们反馈给 GENERATOR，以生成改进后的候选集。对于某些任务，该过程可能会通过初始候选集的评分进行引导。该优化过程会运行至收敛或达到设定的迭代次数，最终生成任务的最终解决方案。

1：GENERATOR（生成器）

GENERATOR 的目标是生成候选输出，以解决给定任务。它的输入包括某些文本，其中包含任务的描述，以及来自 SCORER 的评分（如果有的话），用于优化过程的上一轮。GENERATOR 利用这些信息生成下一组候选方案。

GENERATOR 通常使用 LLM 来建模，因为它可以接收文本输入并进行推理。然而，它的输出不限于文本，候选生成结果也可以用于引导后续模型生成其他模态数据，例如使用文本到图像（T2I）模型（如 Emu）生成图像。一些 GENERATOR 也可以将测试样本作为输入，例如在图像编辑或风格化任务中。

2：SCORER（评分器）

SCORER 的目标是为 GENERATOR 生成的候选方案计算标量评分。它的输入是测试样本和候选方案，并对它们进行比较。SCORER 可以采用多种不同的实现方式，例如：

低级图像处理函数，可以比较两张图片的纹理；
经过训练的机器学习模型，例如 CLIP。

SCORER 根据评分对所有候选方案进行排序，并返回前个候选方案及其得分。根据 GENERATOR 的能力（如上下文长度），SCORER 可以返回完整的评分列表，或采用 -贪心策略（-greedy strategy）以包含一些低分候选方案。在初步实验中，发现贪心选择前（top-K）方案效果最佳，因此在本研究中采用该方法。评分结果会格式化为文本，并传递回 GENERATOR。

3：优化过程

MILS 在 SCORER 的损失函数下搜索最优生成方案 C。该优化过程运行N 轮，或直到收敛。收敛可通过候选集在连续步骤中的相似性来定义。根据不同任务，该优化过程可以通过初始候选方案集引导，并对其进行评分。例如，在图像描述生成任务中，初始候选方案可以是 GENERATOR 生成的大量图像描述。而对于文本到图像（T2I）等任务，则无需这样的初始集合。

二：实验的反馈分析

1：实验综合解析：

对 MILS 进行了实验评估，并将其与现有方法进行分析比较，涵盖其在多模态理解和生成任务中的应用。对于每个下游任务，依次介绍 GENERATOR、SCORER、基准测试和评估设置，然后给出关键实验结果。最后对 MILS 的各种设计选择进行消融分析。

MILS 是一种测试时优化（test-time optimization）方法，并展现出 零样本（zero-shot）能力。它不仅能泛化到新的测试数据分布，还能泛化到新的任务和模态。这与大多数现有的零样本方法形成对比，后者通常需要任务或模态特定的数据整理或训练。由于大多数先前工作属于后者类型，因此很难进行公平比较。然而，仍然与最接近的零样本方法进行比较，并证明 MILS 在许多情况下可以与专门针对特定任务或模态优化的方法相媲美，甚至更优。

2：图像描述生成

研究图像理解的基本任务——为给定图像生成文本描述。

GENERATOR本文使用 Llama 3.1 8B (Dubey et al., 2024) 作为主要的生成模块。首先，生成一个包含 30K 个提示词的初始列表，并用于引导优化过程。为了确保初始集合的多样性，使用不同的对象类别对 LLM 进行提示，并将生成的提示词组合在一起，类似于 (Gandelsman et al., 2024)。然后，在每个优化步骤中，保留 SCORER 评分最高的前 50 个生成结果，并将其转换为文本提示词。所使用的提示词描述详见附录。整个优化过程运行 10 轮。

SCORER 使用图像-文本相似性模型 SigLIP 对候选描述进行评分。值得注意的是，与利用精心整理的图像-文本对进行训练的传统图像描述模型不同，SigLIP 本身并不具备描述生成能力。然而，当与 MILS 结合时，它能够充当一个有效的描述生成器

基准测试和评价指标
在 MSCOCO 描述测试集上评估 MILS。该测试集包含从 MSCOCO 数据集中抽取的 5,000 张图像。采用标准的描述评价指标，包括：

BLEU
METEOR
CIDEr
SPICE

特别关注 METEOR 和 SPICE 指标，因为它们更侧重于语义相似性，而非严格的词匹配，并且与人类偏好更相关。这对像 MILS 这样不依赖特定任务训练的零样本方法 尤为重要，因为它不会学习某个特定基准测试或模态中的词汇。

图像实验结果

将 MILS 与现有基线方法进行比较。一些基线方法，如 ZeroCap，也结合了语言模型和类似 CLIP 的模型，但它们提出了一种基于梯度优化的搜索方法，以在当前生成的基础上寻找最优的下一个 token。

另一些方法，如 MeaCap，则从一个记忆模块中筛选关键概念，并结合多个文本和多模态编码器，在多步过程中生成描述。相比之下，MILS 的概念更加简单，实现更为直接，同时还能取得更好的结果。下图 3 中展示了 MILS 生成的描述示例，并将其与 MeaCap 进行对比。值得注意的是，MILS 无需任何描述数据或特定于描述生成的训练，即可生成忠实且语法正确的描述。

3：视频描述生成

由于其简单性和通用性，MILS 可无缝适用于视频，无需进行重大更改。使用与前面图像描述生成相同的 GENERATOR，并采用相同的初始提示词集。对于 SCORER，使用 ViCLIP ViT-L/14 模型，该模型基于视频的 8 帧计算视频与描述之间的相似度得分。

在 MSR-VTT测试集上进行实验，该数据集包含 2,990 个视频，每个视频时长 10 到 30 秒。结果如下表 2 所示。由于大多数现有视频描述生成方法依赖于视频-描述训练数据，将 MILS 与 Nagrani 等人（2022）的模型进行比较，该模型在 HowTo100M或 VideoCC3M数据集上训练，并在 MSR-VTT 上进行评估。

采用 CIDEr和 METEOR指标进行评测，这些指标与之前的研究保持一致。结果表明，尽管 MILS 从未针对视频描述任务进行过训练，但在 CIDEr 和 METEOR 指标上均优于在 HowTo100M 训练的 Nagrani 等人（2022）模型。即使与在数据质量更高的 VideoCC3M 上训练的同一模型相比，MILS 仍然在语义敏感的 METEOR 指标上表现更佳。这种基线模型在不同训练数据上的表现差异，表明训练数据对视频描述模型的重要性。而 MILS 无需任何视频描述训练即可达到竞争水平，展现出极大的潜力。

4：音频描述生成

与视频类似，MILS 也可以无缝适用于音频描述生成。使用与前面相同的 GENERATOR，并结合 LLM 生成的 50,000 条初始音频提示词。作为 SCORER，采用 ImageBind 模型，该模型能将音频、文本等多种模态映射到同一嵌入空间。

在 Clotho数据集上评估该方法，该数据集是一个常用的音频描述数据集。评测使用自动描述生成指标。结果如下表 3 所示。MILS 在对比可比的零样本方法 ZerAuCaps时表现出色，特别是在 METEOR 和 SPICE 等语义敏感指标上表现更优。尽管已有其他音频描述生成方法被提出，但它们需要在音频-描述数据上进行训练。更多定性分析结果见附录 C。

5：高质量图像生成

如前所述，MILS 并不仅限于前述的多模态理解任务。介绍 MILS 如何用于多模态生成任务，首先是提升文本到图像（T2I）生成模型的质量。

GENERATOR。为了生成高质量图像，将 LLM 与 T2I 模型串联使用。本文实验了两种最先进的模型：隐空间扩散模型（LDM）和 FLUX.1 [schnell]（Labs）。LLM 的目标是“重写”输入到 T2I 模型的提示词，使最终生成的图像质量提升，同时保持或增强对原始文本提示词的忠实度。值得注意的是，此 GENERATOR 不需要 依赖初始提示词集进行引导。

SCORER。使用 PickScore（对生成结果进行评分。PickScore 是一种类似 CLIP 的模型，它接受图像和文本提示词作为输入，并预测该图像在该提示词下被人类偏好的可能性。使用 PickScore 计算 GENERATOR 生成的每张图像与输入提示词的匹配得分，并返回每个生成结果的得分。其余流程与前述任务保持一致。

基准测试与评测指标。使用 Imagen 的 DrawBench 提示词集 进行评测，该数据集包含 200 条文本提示词。由于自动评测指标在媒体生成任务中的噪声较大，采用 Amazon Mechanical Turk（AMT）上的人工标注者进行评测，并遵循 JUICE 框架。

按照媒体生成的标准评测方法，在两个维度上评估生成质量：

视觉质量（美学吸引力）
文本忠实度（与输入文本的一致性）

在每个评测任务中，标注者会看到两张图像，一张是基线模型生成的，另一张是经过 MILS 增强的。对于 文本忠实度 评测，标注者还会看到原始文本提示词。标注者需选择他们更偏好的图像。每张图像由三位标注者独立评估，采用 多数投票 计算各模型的胜率（win%）。完整的人工评测细节见下面：

高质量图像的结果是：

下图 4 总结了人工评测的结果。从胜率可以看出，人工标注者明显更偏好 MILS 增强后的图像，而非基线模型直接生成的图像。下图 5 展示了定性对比，MILS 在美学质量上的提升尤为明显。MILS 能够简化复杂提示词，并添加美学细节，从而提升生成图像的整体质量和忠实度。

基于 LLM 的提示词重写可以提高媒体生成的表现。然而，这些方法通常需要手动尝试多种不同的重写方案，直至找到适用于该模型的最佳提示词。MILS 能够自动化并辅助这一过程，既可以在每次生成时进行提示词优化，也可以为专家提示词工程师提供备选方案以进一步改进。

先前在其他任务中对比的方法很难具备这一能力。这些方法通常需要通过多步扩散过程计算梯度，以估计 LLM 应该生成哪些 token。而 MILS 采用无梯度优化（gradient-free optimization）方法，因此能够在一个简单框架下轻松扩展至多种不同应用场景。

6：风格迁移

除了图像生成，MILS 还可以应用于图像编辑任务。这里特别考虑风格迁移任务，其中给定测试图像和风格图像，目标是生成一张包含测试图像内容且具有风格图像风格的图像。

生成器。本文通过将 LLM 的输出链接到图像生成模型来实现生成器。与前面不同的是，由于希望生成与测试样本相同的内容，生成器还将测试样本作为输入。因此，使用图像编辑模型作为图像生成模块。它根据测试样本和来自 LLM 的编辑提示生成风格化图像。

评分器。为了衡量风格迁移的质量，使用一种简单的方法来估计生成图像与风格图像在颜色和纹理上的相似性。使用图像特征的 Gram 矩阵之间的距离，如（Gatys，2015）所提出的。在 VGG19（Simonyan & Zisserman，2015）CNN 的不同层特征上计算此距离，其中较低层确保风格忠实性，较高层确保内容忠实性。使用 MILS 来最小化风格和内容损失。

结果。下图 6 展示了一些风格迁移的示例结果。MILS 完全零样本泛化到这一新任务，并生成准确风格化的图像。请注意，它不仅无需任何训练就能实现此类编辑，而且 LLM 实际上并未看到测试样本或风格图像的任何特征！

7：跨模态计算

探索了 MILS 实现的一个有趣应用。与之前的工作将嵌入映射到连续图像空间不同，MILS 中的无梯度方法能够将此类嵌入反转到离散文本空间。这在前面的结果中也有所体现。这实现了一个有趣的跨模态计算应用。

从 ImageBind中获得灵感，它将多种不同模态映射到图像嵌入空间。利用这一共享嵌入，作者能够组合模态，并根据该组合生成或检索图像。实际上，MILS 更加灵活，因为反转到文本可以与更多模型进行交互。例如，ImageBind 通过利用类似 DALLE-2 的 T2I 模型展示了音频到图像生成的结果。这是可能的，因为 ImageBind 恰好与 CLIP 嵌入空间对齐，而 CLIP 嵌入空间与 DALLE-2 使用的相同。因此，ImageBind 与任何其他 T2I 模型（例如隐空间扩散模型）不兼容。另一方面，文本表示可以与任何 T2I 模型兼容，包括那些不将文本输入表示为嵌入空间中的点的模型。

在下图 7 中，展示了组合图像和音频模态的示例。首先将图像和音频反转到文本，使用 LLM 组合这两个输出（详见附录B），最后将提示转换为高质量图像。生成的图像结合了这两种模态的语义概念。

8：消融实验

现在对 MILS 中的一些关键设计选择进行消融实验。主要将分析重点放在图像描述任务上，并在部分消融实验中改进图像生成。为了计算方便，从 MSCOCO 中随机抽取 1000 张图像进行描述，并使用包含 200 个提示的 DrawBench 集作为图像生成的测试集。报告了包括 CLIP 相似性和 PickScore 在内的所有指标，这些指标均在这些集合上取平均值。

优化步骤的性能。在下图 9 中对这两个任务进行了评估。报告了评分器的输出（可以视为本文设置中的“训练损失”）以及下游指标。对于图像描述任务，报告了 SPICE；对于文本到图像生成任务，报告了与原始提示生成结果的人类评估对比。对于后者，还展示了 ±4 点的误差条，这是在人类评估中发现的典型随机方差范围。如图 9 所示，评分器输出和下游指标都随着优化步骤的增加而改善，并在 10 到 20 步后收敛。还注意到，优化目标（评分器输出）与下游性能密切相关。

最后，在下图 8 和图 11 中分别对描述和生成任务进行了定性可视化。在这两种情况下，输出的质量都随着步骤的增加而提高，展示了 MILS 的有效性。

生成器和评分器的规模。

在下图 12 中评估了生成器（Llama 3）和评分器（MetaCLIP）的规模（以参数数量衡量）对图像描述任务的影响。较大的模型通常表现更好，其中 LLM 的扩展表现出最有潜力的增益。还在附录 C 中尝试了不同类型的生成器和评分器。

三：总结与未来工作可能性

MILS，这是一种无需任何任务特定数据策展或训练即可解决多模态任务的简单方法。MILS 展现了对各种不同任务和模态的零样本泛化能力。值得注意的是，展示了 MILS 在图像、视频和音频三种模态的描述任务上均取得了强劲的性能，表明 LLM 无需任何训练即可“看到”和“听到”！这进一步推动并实现了各种媒体生成任务的改进，例如图像生成、图像编辑（风格迁移）和跨模态计算。

尽管前景广阔，但 MILS 仍存在一些局限性，未来的工作可以尝试解决。其性能受限于生成器生成多样化候选者的能力以及评分器为生成器提供准确反馈的能力。例如，风格迁移的性能受限于 Gram 矩阵距离在检测细粒度纹理相似性时的分辨率，以及 LLM 描述潜在风格的能力。随着 LLM 和多模态模型的不断改进，MILS 也会随之改进。另一个局限性是优化过程的速度。随着核心 LLM 变得更快速、更高效，以及其上下文长度和推理能力（OpenAI）的提升，优化步骤将减少，速度也会提高。将 MILS 应用于其他模态和任务（例如空间和 3D 任务）也将是一个有趣的方向。

论文地址：https://arxiv.org/pdf/2501.18096

引言：