当前位置：首页 > news >正文

介绍 CM3leon，一个更高效、最先进的文本和图像生成模型

news 文章来源：https://blog.csdn.net/weixin_41446370/article/details/140396565 2025/2/9 8:10:34

近几个月来，随着让机器理解和表达语言的自然语言处理技术以及可根据文本输入生成图像的系统的进步，人们对生成式人工智能模型的兴趣和研究也在加速。今天，我们要展示的是 CM3leon（发音类似于 “变色龙”），它是一个单一的基础模型，可以实现文本到图像和图像到文本的生成。

在这里插入图片描述

CM3leon 是第一个采用纯文本语言模型的方法训练的多模态模型，包括大规模检索增强预训练阶段和第二个多任务监督微调（SFT）阶段。这种方法简单易行，能生成强大的模型，同时也表明基于标记符号的转换器可以像现有的基于生成扩散的模型一样高效地进行训练。CM3leon 在文本到图像的生成方面达到了最先进的性能，尽管其训练所需的计算量是以前基于转换器的方法的五倍。CM3leon 具有自回归模型的多功能性和有效性，同时保持了较低的训练成本和推理效率。它是一个因果掩蔽混合模态（CM3）模型，因为它可以生成以其他图像和文本内容的任意序列为条件的文本和图像序列。这极大地扩展了以往模型的功能，以往的模型要么只是文本到图像，要么只是图像到文本。

虽然纯文本生成模型通常会在各种不同任务上进行多任务指令调整，以提高其遵循指令提示的能力，但图像生成模型通常是专门针对特定任务的。我们将大规模多任务指令调整应用于 CM3leon 的图像和文本生成，结果表明它显著提高了图像标题生成、视觉问题解答、基于文本的编辑和条件图像生成等任务的性能。这提供了另一个有力的例子，说明为纯文本模型开发的扩展秘诀如何直接推广到我们基于标记化的图像生成模型。

在比较最广泛使用的图像生成基准（零镜头 MS-COCO）的性能时，CM3Leon 的 FID（弗雷谢特起始距离）得分达到了 4.88，在文本到图像生成领域确立了新的技术水平，并超越了谷歌的文本到图像模型 Parti。这一成就强调了检索增强的潜力，并突出了扩展策略对自回归模型性能的影响。CM3Leon 还显示出令人印象深刻的生成复杂构图对象的能力，例如下面示例中带有太阳镜和帽子的盆栽仙人掌。CM3leon 在各种视觉语言任务中表现出色，包括视觉问题解答和长篇字幕。即使只在由 30 亿个文本标记组成的数据集上进行训练，CM3Leon 的零镜头性能也能与在更广泛的数据集上训练的大型模型相比毫不逊色。

CM3leon 在不同任务中的表现

利用 CM3leon 的功能，图像生成工具可以生成更加连贯的图像，更好地遵循输入提示。例如，许多图像生成模型在恢复整体形状和局部细节的能力方面都很吃力。CM3leon 在这方面表现出色。以下是 CM3leon 在各种任务中的表现，所有任务均由单一模型完成：

文本引导的图像生成和编辑

当涉及复杂对象或提示包括许多必须全部包含在输出中的约束时，图像生成可能具有挑战性。文本引导的图像编辑（例如，“将天空的颜色更改为明亮的蓝色”）具有挑战性，因为它要求模型同时理解文本指令和视觉内容。CM3leon 在所有情况下都表现出色，如下例所示。

文本到图像

给定可能具有高度构图结构的提示文本，根据提示生成连贯的图像。例如，我们根据提示创作了以下四幅图片：(1) 撒哈拉沙漠中一棵头戴草帽和霓虹太阳镜的小仙人掌。(2) 一张人手的特写照片，手部模型。高质量。(3) 动漫中的浣熊主角，正准备用武士刀进行一场史诗般的战斗。战斗姿态。幻想，插画。(4) 带有 "1991 "字样的幻想风格的停车标志。

在这里插入图片描述

文本引导的图像编辑

给定一幅图像和一段文字提示，根据文字说明编辑图像。由于 CM3leon 模型的通用性，这一任务是通过与上下所有其他任务相同的模型完成的，而不像 InstructPix2Pix 等以前的模型只针对文本引导的图像编辑进行调整。

在这里插入图片描述

文本任务

CM3leon 模型还能根据一系列不同的提示生成或长或短的标题，并回答有关图像的问题。

例如，想象一只狗拿着一根棍子。

提示问题：What is the dog carrying?

模型生成：Stick

提示：Describe the given image in very fine detail.

生成模型：In this image, there is a dog holding a stick in its mouth. There is grass on the surface. In the background of the image, there are trees.

在这里插入图片描述

我们在各种图像字幕生成和视觉问题解答任务中对经过指令调整的模型进行了实证评估，并将它们与以前的先进基准进行了比较。尽管与 Flamingo（100B）和 OpenFlamingo（40B）相比，CM3leon 模型看到的文本数据（约 3B 标记）要少得多，但它们在 MS-COCO 标题生成和 VQA2 问题解答上的零镜头性能水平与 OpenFlamingo 不相上下，甚至在 VizWiz 任务上比 Flamingo 高出近 10 个百分点。

结构引导图像编辑

结构引导图像编辑不仅涉及理解和解释文本指令，还涉及理解和解释作为输入提供的结构或布局信息。这使 CM3leon 模型能够在遵守给定结构或布局准则的同时，创建视觉上连贯且与上下文相适应的图像编辑。

对象到图像

给定图像边框分割的文本描述，生成图像。

在这里插入图片描述

分割到图像

给定一幅只包含分割结果（不含文本类别）的图像，生成一幅图像。这里的输入指的是我们从中提取分割结果的图像。

在这里插入图片描述

超分辨率结果

以上所有生成的图像都是 CM3leon 模型的原始输出。然而，图像生成的一个常见技巧是添加一个单独训练的超分辨率阶段，以从原始模型输出生成更高分辨率的图像。这在 CM3leon 中也非常有效，正如我们在下面文本到图像生成任务的示例中所展示的那样。

每个提示的四幅示例图像：(1) 一杯热气腾腾的咖啡，背景是群山。在公路旅行中休息。(2) 日落时分美丽雄伟的道路。唯美。(3) 湖中央的圆形小岛。湖泊周围的森林。高对比度。

在这里插入图片描述
提示的更多示例：(1) 海龟在水下游泳。审美。幻想。(2) 大象在水下游泳。审美。幻想。(3) 羊群。审美。幻想。

在这里插入图片描述

我们如何构建 CM3leon

架构

CM3Leon 的架构采用了与成熟的基于文本的模型类似的仅解码器转换器。然而，CM3Leon 的与众不同之处在于它能够输入和生成文本和图像。这使 CM3Leon 能够成功地处理我们上面分享的各种任务。

训练

根据我们最近的工作，CM3leon 的训练检索得到了增强，大大提高了生成模型的效率和可控性。最后，如上所述，我们对各种不同的图像和文本生成任务进行了指令微调。

随着人工智能行业的不断发展，像 CM3leon 这样的生成模型也变得越来越复杂。这些模型通过对数以百万计的示例图像进行训练来学习视觉和文本之间的关系，但它们也能反映出训练数据中存在的任何偏差。虽然行业在理解和应对这些挑战方面仍处于早期阶段，但我们相信，透明度将是加速进步的关键。

因此，正如我们的论文所述，我们使用授权数据集对 CM3leon 进行了训练。这表明，在数据分布与以往所有模型截然不同的情况下，CM3leon 仍能表现出强劲的性能。通过公开我们的工作，我们希望鼓励生成式人工智能领域的合作与创新。我们相信，通过共同努力，我们可以创建出不仅更准确，而且对每个人都更公平公正的模型。

为多模态语言模型铺平道路

在创建高质量生成模型的目标下，我们相信 CM3leon 在各种任务中的出色表现是向更高保真图像生成和理解迈出的一步。像 CM3leon 这样的模型最终将有助于提高创造力和更好地应用于元宇宙。我们期待着探索多模态语言模型的边界，并在未来发布更多模型。

Paper

感谢大家花时间阅读我的文章，你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容，请多多关注我的动态！

CM3leon 在不同任务中的表现

文本引导的图像生成和编辑

文本到图像

文本引导的图像编辑

文本任务

结构引导图像编辑

对象到图像

分割到图像

超分辨率结果

我们如何构建 CM3leon

架构

训练

为多模态语言模型铺平道路

相关文章：