介绍 CM3leon,一个更高效、最先进的文本和图像生成模型
近几个月来,随着让机器理解和表达语言的自然语言处理技术以及可根据文本输入生成图像的系统的进步,人们对生成式人工智能模型的兴趣和研究也在加速。今天,我们要展示的是 CM3leon(发音类似于 “变色龙”),它是一个单一的基础模型,可以实现文本到图像和图像到文本的生成。
CM3leon 是第一个采用纯文本语言模型的方法训练的多模态模型,包括大规模检索增强预训练阶段和第二个多任务监督微调(SFT)阶段。这种方法简单易行,能生成强大的模型,同时也表明基于标记符号的转换器可以像现有的基于生成扩散的模型一样高效地进行训练。CM3leon 在文本到图像的生成方面达到了最先进的性能,尽管其训练所需的计算量是以前基于转换器的方法的五倍。CM3leon 具有自回归模型的多功能性和有效性,同时保持了较低的训练成本和推理效率。它是一个因果掩蔽混合模态(CM3)模型,因为它可以生成以其他图像和文本内容的任意序列为条件的文本和图像序列。这极大地扩展了以往模型的功能,以往的模型要么只是文本到图像,要么只是图像到文本。
虽然纯文本生成模型通常会在各种不同任务上进行多任务指令调整,以提高其遵循指令提示的能力,但图像生成模型通常是专门针对特定任务的。我们将大规模多任务指令调整应用于 CM3leon 的图像和文本生成,结果表明它显著提高了图像标题生成、视觉问题解答、基于文本的编辑和条件图像生成等任务的性能。这提供了另一个有力的例子,说明为纯文本模型开发的扩展秘诀如何直接推广到我们基于标记化的图像生成模型。
在比较最广泛使用的图像生成基准(零镜头 MS-COCO)的性能时,CM3Leon 的 FID(弗雷谢特起始距离)得分达到了 4.88,在文本到图像生成领域确立了新的技术水平,并超越了谷歌的文本到图像模型 Parti。这一成就强调了检索增强的潜力,并突出了扩展策略对自回归模型性能的影响。CM3Leon 还显示出令人印象深刻的生成复杂构图对象的能力,例如下面示例中带有太阳镜和帽子的盆栽仙人掌。CM3leon 在各种视觉语言任务中表现出色,包括视觉问题解答和长篇字幕。即使只在由 30 亿个文本标记组成的数据集上进行训练,CM3Leon 的零镜头性能也能与在更广泛的数据集上训练的大型模型相比毫不逊色。
CM3leon 在不同任务中的表现
利用 CM3leon 的功能,图像生成工具可以生成更加连贯的图像,更好地遵循输入提示。例如,许多图像生成模型在恢复整体形状和局部细节的能力方面都很吃力。CM3leon 在这方面表现出色。以下是 CM3leon 在各种任务中的表现,所有任务均由单一模型完成:
文本引导的图像生成和编辑
当涉及复杂对象或提示包括许多必须全部包含在输出中的约束时,图像生成可能具有挑战性。文本引导的图像编辑(例如,“将天空的颜色更改为明亮的蓝色”)具有挑战性,因为它要求模型同时理解文本指令和视觉内容。CM3leon 在所有情况下都表现出色,如下例所示。
文本到图像
给定可能具有高度构图结构的提示文本,根据提示生成连贯的图像。例如,我们根据提示创作了以下四幅图片:(1) 撒哈拉沙漠中一棵头戴草帽和霓虹太阳镜的小仙人掌。(2) 一张人手的特写照片,手部模型。高质量。(3) 动漫中的浣熊主角,正准备用武士刀进行一场史诗般的战斗。战斗姿态。幻想,插画。(4) 带有 "1991 "字样的幻想风格的停车标志。
文本引导的图像编辑
给定一幅图像和一段文字提示,根据文字说明编辑图像。由于 CM3leon 模型的通用性,这一任务是通过与上下所有其他任务相同的模型完成的,而不像 InstructPix2Pix 等以前的模型只针对文本引导的图像编辑进行调整。
文本任务
CM3leon 模型还能根据一系列不同的提示生成或长或短的标题,并回答有关图像的问题。
例如,想象一只狗拿着一根棍子。
提示问题:What is the dog carrying?
模型生成:Stick
提示:Describe the given image in very fine detail.
生成模型:In this image, there is a dog holding a stick in its mouth. There is grass on the surface. In the background of the image, there are trees.
我们在各种图像字幕生成和视觉问题解答任务中对经过指令调整的模型进行了实证评估,并将它们与以前的先进基准进行了比较。尽管与 Flamingo(100B)和 OpenFlamingo(40B)相比,CM3leon 模型看到的文本数据(约 3B 标记)要少得多,但它们在 MS-COCO 标题生成和 VQA2 问题解答上的零镜头性能水平与 OpenFlamingo 不相上下,甚至在 VizWiz 任务上比 Flamingo 高出近 10 个百分点。
结构引导图像编辑
结构引导图像编辑不仅涉及理解和解释文本指令,还涉及理解和解释作为输入提供的结构或布局信息。这使 CM3leon 模型能够在遵守给定结构或布局准则的同时,创建视觉上连贯且与上下文相适应的图像编辑。
对象到图像
给定图像边框分割的文本描述,生成图像。
分割到图像
给定一幅只包含分割结果(不含文本类别)的图像,生成一幅图像。这里的输入指的是我们从中提取分割结果的图像。
超分辨率结果
以上所有生成的图像都是 CM3leon 模型的原始输出。然而,图像生成的一个常见技巧是添加一个单独训练的超分辨率阶段,以从原始模型输出生成更高分辨率的图像。这在 CM3leon 中也非常有效,正如我们在下面文本到图像生成任务的示例中所展示的那样。
每个提示的四幅示例图像:(1) 一杯热气腾腾的咖啡,背景是群山。在公路旅行中休息。(2) 日落时分美丽雄伟的道路。唯美。(3) 湖中央的圆形小岛。湖泊周围的森林。高对比度。
提示的更多示例:(1) 海龟在水下游泳。审美。幻想。(2) 大象在水下游泳。审美。幻想。(3) 羊群。审美。幻想。
我们如何构建 CM3leon
架构
CM3Leon 的架构采用了与成熟的基于文本的模型类似的仅解码器转换器。然而,CM3Leon 的与众不同之处在于它能够输入和生成文本和图像。这使 CM3Leon 能够成功地处理我们上面分享的各种任务。
训练
根据我们最近的工作,CM3leon 的训练检索得到了增强,大大提高了生成模型的效率和可控性。最后,如上所述,我们对各种不同的图像和文本生成任务进行了指令微调。
随着人工智能行业的不断发展,像 CM3leon 这样的生成模型也变得越来越复杂。这些模型通过对数以百万计的示例图像进行训练来学习视觉和文本之间的关系,但它们也能反映出训练数据中存在的任何偏差。虽然行业在理解和应对这些挑战方面仍处于早期阶段,但我们相信,透明度将是加速进步的关键。
因此,正如我们的论文所述,我们使用授权数据集对 CM3leon 进行了训练。这表明,在数据分布与以往所有模型截然不同的情况下,CM3leon 仍能表现出强劲的性能。通过公开我们的工作,我们希望鼓励生成式人工智能领域的合作与创新。我们相信,通过共同努力,我们可以创建出不仅更准确,而且对每个人都更公平公正的模型。
为多模态语言模型铺平道路
在创建高质量生成模型的目标下,我们相信 CM3leon 在各种任务中的出色表现是向更高保真图像生成和理解迈出的一步。像 CM3leon 这样的模型最终将有助于提高创造力和更好地应用于元宇宙。我们期待着探索多模态语言模型的边界,并在未来发布更多模型。
Paper
感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!
相关文章:
![](https://i-blog.csdnimg.cn/direct/d83e8e2cbb914beb82b9533269a75b7c.png)
介绍 CM3leon,一个更高效、最先进的文本和图像生成模型
近几个月来,随着让机器理解和表达语言的自然语言处理技术以及可根据文本输入生成图像的系统的进步,人们对生成式人工智能模型的兴趣和研究也在加速。今天,我们要展示的是 CM3leon(发音类似于 “变色龙”),它…...
![](https://www.ngui.cc/images/no-images.jpg)
HTTPS和HTTP有哪些区别
两者的主要区别在于安全性和数据加密: 加密层:HTTPS 在HTTP 的基础上增加了SSL/TLS 协议作为加密层,确保数据传输的安全性,即使数据被截获,没有相应的密钥也无法解读数据内容。而HTTP 数据传输是明文的,容易受到攻击。…...
![](https://www.ngui.cc/images/no-images.jpg)
Docker 安装 PostgreSQL
1. 启动 PostgreSQL 容器 docker run --name ffj-postgres -p 5432:5432 -e POSTGRES_PASSWORDCisc0123 -d postgres docker run:启动一个新的容器。--name指定容器名称为 ffj-postgres。-p 5432:5432:将主机的 5432 端口映射到容器的 5432 端口。-e P…...
![](https://i-blog.csdnimg.cn/direct/4fc0674def824ce5979a9fc5c7736ae7.png)
实践致知第12享:如何新建一个Word并设置格式
一、背景需求 小姑电话说:要新建一个Word文档,并将每段的首行设置空2格。 二、解决方案 1、在电脑桌面上空白地方,点击鼠标右键,在下拉的功能框中选择“DOC文档”或“DOCX文档”都可以,如下图所示。 之后࿰…...
![](https://i-blog.csdnimg.cn/direct/beeb4d805182423dbd3f26896670c50f.jpeg#pic_center)
Rust vs Go: 特点与应用场景分析
目录 介绍Rust的特点Go的特点Rust的应用场景Go的应用场景总结 介绍 Rust和Go(Golang)是现代编程语言中两个非常流行的选择。凭借各自的独特优势和广泛的应用场景,吸引了大量开发者的关注。本文将详细介绍Rust和Go的特点,并探讨它…...
![](https://img-blog.csdnimg.cn/img_convert/71c8569263beb918ed773c90bba8f468.png)
2024的开放式耳机排行榜,看这六个耳机选购的小Tips
寻找一款既能聊天又能听歌的耳机并不容易,但是开放式耳机可能会是一个理想的选择。与传统的入耳式耳机相比,开放式耳机可以让你更加自然地与周围环境互动,并且不容易掉落。当然,在市场上选择一款适合自己的开放式耳机也是至关重要…...
![](https://www.ngui.cc/images/no-images.jpg)
JAVA-报表模糊搜索询易实现
背景: 一般文件报表经常会需要搜各个表头对应内容,如果支持全部类型切换搜索,操作起来就不够便捷。而且这个报表是测试自己用的,准确性可以不用太要求,所以更想要那中输入关键字命中任意表记录内容的模糊匹配功能。 方法一:解析搜…...
![](https://i-blog.csdnimg.cn/direct/79812ea52f224c26a6e96ae164b091c0.png)
牛客 7.13 月赛(留 C逆元)
B-最少剩几个?_牛客小白月赛98 (nowcoder.com) 思路 奇数偶数 奇数;奇数*偶数 奇数 所以在既有奇数又有偶数时,两者结合可以同时删除 先分别统计奇数,偶数个数 若偶个数大于奇个数,答案是偶个数-奇个数 若奇个数…...
![](https://www.ngui.cc/images/no-images.jpg)
FPGA之术语
FPGA之术语 IOSTANDARDDIFF_SSTL12:LVCMOS33:sys_clk_p/n:rst_n:UART时钟JTAG:GPIOONFIPCIe IOSTANDARD 在电子工程领域,DIFF_SSTL12和LVCMOS33是两种不同的电气标准,用于定义信号的电压级别和特性。 IOSTANDARD是一个在FPGA(现场可编程门阵…...
![](https://www.ngui.cc/images/no-images.jpg)
WPF透明置顶窗口wine适配穿透问题解决
一、透明窗口全屏时,鼠标不穿透 问题描述 我有一个透明窗口,它是一个全屏置顶窗口,窗口里面有一个工具条,可以通过鼠标拖动工具条的位置,程序启动后,在不点击工具条的时候,鼠标是可以穿透的&a…...
![](https://www.ngui.cc/images/no-images.jpg)
浅析Kafka Streams中KTable.aggregate()方法的使用
KTable.aggregate() 方法是 Apache Kafka Streams API 中用于对流数据进行状态化聚合的核心方法之一。这个方法允许你根据一个键值(通常是<K,V>类型)的流数据,应用一个初始值和一个聚合函数,来累积和更新一个状态࿰…...
![](https://www.ngui.cc/images/no-images.jpg)
java word转pdf、word中关键字位置插入图片 工具类
java word转pdf、word中关键字位置插入图片 工具类 1.pom依赖 <dependency><groupId>org.apache.poi</groupId><artifactId>poi</artifactId><version>3.15</version></dependency><dependency><groupId>org.apa…...
![](https://www.ngui.cc/images/no-images.jpg)
jail内部ubuntu apt升级失败问题解决
在FreeBSD jail 里安装启动Ubuntu jammy系统,每次装好执行jexec ubjammy sh进入Ubuntu系统后,执行apt update报错。 这个问题困惑了好久,突然有一天仔细去看报错信息,查看了(man 5 apt.conf) ,才搞定问题。简单来说就是…...
![](https://www.ngui.cc/images/no-images.jpg)
迎接AI新时代:GPT-5的技术飞跃与未来展望
引言 随着人工智能技术的迅猛发展,大语言模型在过去几年取得了显著进步。OpenAI最新的声明表明,GPT-5将在一年半后发布,并将带来从高中生智力水平到博士生智力水平的飞跃。这一突破引起了科技界和公众的广泛关注。本文将从技术突破预测、智能…...
![](https://i-blog.csdnimg.cn/direct/2e921c8ae0044e9e94371042dd58f5c5.png)
Snap Video:用于文本到视频合成的扩展时空变换器
图像生成模型的质量和多功能性的显著提升,研究界开始将其应用于视频生成领域。但是视频内容高度冗余,直接将图像模型技术应用于视频生成可能会降低运动的保真度和视觉质量,并影响可扩展性。来自 Snap 的研究团队及其合作者提出了 "Snap …...
![](https://i-blog.csdnimg.cn/direct/745065f87d8f4f1f889ea2f1395b8848.png)
实验8 视图创建与管理实验
一、实验目的 理解视图的概念。掌握创建、更改、删除视图的方法。掌握使用视图来访问数据的方法。 二、实验内容 在job数据库中,有聘任人员信息表:Work_lnfo表,其表结构如下表所示: 其中表中练习数据如下: 1.‘张明…...
![](https://www.ngui.cc/images/no-images.jpg)
C++ 开源库
1 PDFium PDFium 是一个开源的 PDF 渲染和处理库,最初由 Foxit Software 开发,并于2014年捐赠给了 Chromium 项目。PDFium 旨在为各种应用程序提供高效、灵活的 PDF 渲染和操作功能。 2 代码地址 https://github.com/chromium/pdfium 主要特性 渲染…...
![](https://img-blog.csdnimg.cn/img_convert/c2873311cdfc021e20b97228dfa8d519.png)
LabVIEW滤波器性能研究
为了研究滤波器的滤波性能,采用LabVIEW设计了一套滤波器性能研究系统。该系统通过LabVIEW中的波形生成函数,输出幅值及频率可调的正弦波和白噪声两种信号,并将白噪声与正弦波叠加,再通过滤波器输出纯净的正弦波信号。系统通过FFT&…...
![](https://i-blog.csdnimg.cn/direct/64abcbdee4c14a96a052617e9473b2f6.gif)
『C++成长记』vector模拟实现
🔥博客主页:小王又困了 📚系列专栏:C 🌟人之为学,不日近则日退 ❤️感谢大家点赞👍收藏⭐评论✍️ 目录 一、存储结构 二、默认成员函数 📒2.1构造函数 📒2.2拷贝…...
![](https://img-blog.csdnimg.cn/img_convert/f859574b1e328fd1f64647251c04c2ab.png)
【Mac】Charles for Mac(HTTP协议抓包工具)及同类型软件介绍
软件介绍 Charles for Mac 是一款功能强大的网络调试工具,主要用于HTTP代理/HTTP监视器。以下是它的一些主要特点和功能: 1.HTTP代理:Charles 可以作为HTTP代理服务器,允许你查看客户端和服务器之间的所有HTTP和SSL/TLS通信。 …...
![](https://i-blog.csdnimg.cn/direct/b3e1af9122254787a6c47793fe398ec1.png)
LVS集群及其它的NAT模式
1.lvs集群作用:是linux的内核层面实现负载均衡的软件;将多个后端服务器组成一个高可用、高性能的服务器的集群,通过负载均衡的算法将客户端的请求分发到后端的服务器上,通过这种方式实现高可用和负载均衡。 2.集群和分布式&#…...
![](https://i-blog.csdnimg.cn/direct/5f7e6f497ed849f593f31b23e099ef19.png)
【RNN练习】天气预测
🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 一、环境及数据准备 1. 我的环境 语言环境:Python3.11.9编译器:Jupyter notebook深度学习框架:TensorFlow 2.15.0 2. 导…...
![](https://www.ngui.cc/images/no-images.jpg)
prompt第四讲-fewshot
文章目录 前提回顾FewShotPromptTemplateforamt格式化 前提回顾 前面已经实现了一个翻译助手了[prompt第三讲-PromptTemplate],prompt模板设计中,有说明、案例、和实际的问题 # -*- coding: utf-8 -*- """ Time : 2024/7/8 …...
![](https://img-blog.csdnimg.cn/img_convert/7faffd132ec8fa9744e256c58ae26437.png)
StarRocks分布式元数据源码解析
1. 支持元数据表 https://github.com/StarRocks/starrocks/pull/44276/files 核心类:LogicalIcebergMetadataTable,Iceberg元数据表,将元数据的各个字段做成表的列,后期可以通过sql操作从元数据获取字段,这个表的组成…...
![](https://i-blog.csdnimg.cn/direct/0786921b3238487387d4e39185af182a.png)
阅读笔记——《Fuzz4All: Universal Fuzzing with Large Language Models》
【参考文献】Xia C S, Paltenghi M, Le Tian J, et al. Fuzz4all: Universal fuzzing with large language models[C]//Proceedings of the IEEE/ACM 46th International Conference on Software Engineering. 2024: 1-13.【注】本文仅为作者个人学习笔记,如有冒犯&…...
![](https://www.ngui.cc/images/no-images.jpg)
【C++】使用gtest做单元测试框架写单元测试
本文主要介绍在将gtest框架引入到项目里过程中遇到的问题。 我的需求如下: 用CMake构建项目。我要写一些测试程序验证某些功能,但是不想每一个测试都新建一个main函数。 因为新建一个main函数就要在CMakeList.txt里增加一个project,非常不方便。 于是我搜了下,C++里有没…...
![](https://i-blog.csdnimg.cn/direct/fd7f687793e44991b3c61b15cebd5518.png)
Java类与对象
类是对现实世界中实体的抽象,是对一类事物的描述。 类的属性位置在类的内部、方法的外部。 类的属性描述一个类的一些可描述的特性,比如人的姓名、年龄、性别等。 [public] [abstract|final] class 类名 [extends父类] [implements接口列表] { 属性声…...
![](https://www.ngui.cc/images/no-images.jpg)
xlwings 链接到 指定sheet 从别的 excel 复制 sheet 到指定 sheet
重点 可以参考 宏录制 cell sheet.range(G4)cell.api.Hyperlinks.Add(Anchorcell.api, Address"", SubAddress"001-000-02301!A1")def deal_excel(self):with xw.App(visibleTrue) as app:wb app.books.open(self.summary_path, update_linksFalse)sheet…...
![](https://i-blog.csdnimg.cn/direct/5dc64e786ae343a596b61d546b8989cf.png)
风光摄影:相机设置和镜头选择
写在前面 博文内容为《斯科特凯尔比的风光摄影手册》读书笔记整理涉及在风景拍摄中一些相机设置,镜头选择的建议对小白来讲很实用,避免拍摄一些过曝或者过暗的风景照片理解不足小伙伴帮忙指正 😃,生活加油 99%的焦虑都来自于虚度时间和没有好…...
![](https://i-blog.csdnimg.cn/direct/08eb1c4883bb4bc99062b424f601c6f5.png)
python制作甘特图的基本知识(附Demo)
目录 前言1. matplotlib2. plotly 前言 甘特图是一种常见的项目管理工具,用于表示项目任务的时间进度 直观地看到项目的各个任务在时间上的分布和进度 常用的绘制甘特图的工具是 matplotlib 和 plotly 主要以Demo的形式展示 1. matplotlib 功能强大的绘图库&a…...
![](/images/no-images.jpg)
辽宁专业模板网站建设公司/谷歌搜索引擎香港入口
1.几种基本数据类型?复杂数据类型?值类型和引用数据类型?堆栈数据结构?基本数据类型:Undefined、Null、Boolean、Number、String值类型:数值、布尔值、null、undefined。引用类型:对象、数组、函数。堆栈数据结构:是一种支持后…...
![](/images/no-images.jpg)
网址导航网站如何做/线下推广方案
1. 包 包就是一个文件夹. py2中包内必须要有一个__init__.py文件, 在python3中可以省略,但是最好都保留. __init__.py 当我们导入一个包的时候,默认执行这个包内的__init__.py if 条件: 语句块 一条语句 > 语句块 > 代码块(函数,…...
![](/images/no-images.jpg)
百度有哪些网站可免费做软件推广/淘特app推广代理
用css实现网页背景渐变的代码如下: 一、从上往下渐变 Example Source Code:body{FILTER: progid:DXImageTransform.Microsoft.Gradient(gradientType0,startColorStr#ffffff,endColorStr#000000);} 二、从左上至右下渐变 Example Source Code:body{FILTER: Alpha( s…...
![](/images/no-images.jpg)
淘宝网站建设概要/知乎关键词排名
科技实验报告一、定义与作用实验报告,就是在某项科研活动或专业学习中,实验者把实验的目的、方法。步骤、结果等,用简洁的语言写成书面报告。实验报告必须在科学实验的基础上进行。成功的或失败的实验结果的记载,有利于不断积累研…...
![](https://img-blog.csdnimg.cn/20200111113225791.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzkzMTYyNQ==,size_16,color_FFFFFF,t_70)
网络网站建设办公/如何做宣传推广营销
elasticsearch kibana使用说明 kibana是一个开源的可视化分析平台,常用于处理elasticsearch中的数据,可用图表等形式直观地展现数据 **************************** 配置文件 server.name: kibana server.port: 5601#连接的elasticsearch信息 elasticsea…...
![](https://static.geekbang.org/infoq/5c4e6e683ff65.png?imageView2/0/w/800)
厦门购买域名以后搭建网站/资源网站排名优化seo
关键要点 通过创建和维护架构图来提供准确且有价值的内容并非易事。大多数情况下,我们要么创建了太多的文档,要么太少,或者不相关,因为我们没能准确地定位文档的受益人及其实际的需求。我们常犯的最大的一个错误是为系统中具有高波…...