当前位置: 首页 > news >正文

自回归模型胜过扩散模型:用于可扩展图像生成的 Llama

📜 文献卡


Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation
作者: Peize Sun; Yi Jiang; Shoufa Chen; Shilong Zhang; Bingyue Peng; Ping Luo; Zehuan Yuan
DOI: 10.48550/arXiv.2406.06525
摘要: We introduce LlamaGen, a new family of image generation models that apply original ``next-token prediction’’ paradigm of large language models to visual generation domain. It is an affirmative answer to whether vanilla autoregressive models, e.g., Llama, without inductive biases on visual signals can achieve state-of-the-art image generation performance if scaling properly. We reexamine design spaces of image tokenizers, scalability properties of image generation models, and their training data quality. The outcome of this exploration consists of: (1) An image tokenizer with downsample ratio of 16, reconstruction quality of 0.94 rFID and codebook usage of 97% on ImageNet benchmark. (2) A series of class-conditional image generation models ranging from 111M to 3.1B parameters, achieving 2.18 FID on ImageNet 256x256 benchmarks, outperforming the popular diffusion models such as LDM, DiT. (3) A text-conditional image generation model with 775M parameters, from two-stage training on LAION-COCO and high aesthetics quality images, demonstrating competitive performance of visual quality and text alignment. (4) We verify the effectiveness of LLM serving frameworks in optimizing the inference speed of image generation models and achieve 326% - 414% speedup. We release all models and codes to facilitate open-source community of visual generation and multimodal foundation models.
GitHub(pytorch): https://github.com/foundationvision/llamagen

⚙️ 内容

本研究介绍了LlamaGen,这是一个新型图像生成模型系列,它将大型语言模型(LLMs)的“下一个令牌预测”范式应用于视觉生成领域。LlamaGen探索了是否未经视觉信号归纳偏置调整的原始自回归模型,如Llama,通过适当扩展后能实现顶尖的图像生成性能。研究重新审视了图像分块器的设计空间、图像生成模型的可扩展性属性以及训练数据质量。

💡 创新点

  • LlamaGen家族模型:引入了一种新的图像生成模型系列,首次在视觉领域成功应用了大型语言模型的自回归机制。
  • 高效图像分块器:开发了一个图像分块器,具有16倍的下采样率、在ImageNet基准上达到0.94的rFID重建质量和97%的代码本使用率。
  • 性能超越:构建了一系列从1.11亿到31亿参数的类别条件图像生成模型,在ImageNet 256x256基准上取得了2.18的FID得分,优于流行的扩散模型如LDM和DiT。
  • 文本条件图像生成:提出一个7.75亿参数的文本条件图像生成模型,通过两阶段训练在LAION-COCO和高质量美学图像上,展现了视觉质量和文本对齐的竞争力。
  • 推理速度优化:验证了LLM服务框架在优化图像生成模型推理速度上的有效性,实现了326%至414%的加速。
  • 统一模型理念:致力于推动自回归模型在图像生成领域的边界,旨在减少视觉信号上的归纳偏置,采用与LLM相同的架构,为语言和视觉的潜在统一模型铺路。

🧩 不足

  • 数据和模型限制:文本条件模型存在一些局限性,如文本渲染错误、计数错误和常见误解,这些问题需要更多训练数据和计算资源来缓解。
  • 分辨率提升空间:虽然模型在512x512分辨率下表现良好,但作者指出进一步增加到1024x1024分辨率可能会带来更好的视觉质量,这留待未来研究。

🔁 实验卡


💧 数据

  • 训练数据来源:使用了5000万张来自LAION-COCO的子集和1000万张内部高美学质量图像作为训练数据。这些图像经过筛选以确保有效URL、美学评分、水印评分、CLIP图像-文本相似度和图像尺寸。
  • 文本预处理:利用预训练的FLAN-T5 XL生成图像描述的文本嵌入,图像代码仅从原始图像中心裁剪提取。

👩🏻‍💻 方法

  • 模型架构:LlamaGen基于自回归模型,采用与LLM一致的架构,降低了视觉信号上的归纳偏置。
  • 两阶段训练:先对图像分块器进行微调,然后进行两阶段训练,包括LAION-COCO数据和内部高质量图像,后者由LLaVA生成长描述性文本。

🔬 实验

  • 性能评估:通过FID、IS、精度和召回率等指标在ImageNet 256x256基准上评估模型性能,展示了LlamaGen模型在不同参数量级下的优越性。
  • CFG效果:研究了分类器自由引导(CFG)的影响,发现CFG=2.0时模型性能最优,进一步增加CFG会降低FID,同时平衡多样性与保真度。

📜 结论

LlamaGen系列模型证明了自回归方法在适当规模下能够超越扩散模型,成为可扩展的图像生成解决方案。通过精心设计的图像分块器、大规模模型和高质量训练数据,LlamaGen不仅在类别条件图像生成上取得突破,在文本条件图像生成方面也展示出竞争力。此外,研究还强调了LLM服务框架在提高模型推理速度上的作用,并公开了所有模型和代码以促进视觉生成和多模态基础模型的开源社区发展。

🤔 总结卡


该研究通过LlamaGen模型展示了自回归方法在图像生成任务中的巨大潜力,特别是其在不依赖特定视觉信号归纳偏置的情况下,通过大规模扩展和高质量数据训练达到了前所未有的性能水平。然而,存在的局限性和对未来研究方向的展望(如更高分辨率的图像生成)提示,进一步的研究可以通过增加训练数据量和提高计算能力来继续提升模型的表现,尤其是在文本-图像对齐的准确性以及解决当前模型存在的具体错误方面。此外,对模型推理速度的优化策略是实际应用中的一个重要考虑因素,LlamaGen在这方面也做出了积极贡献。

相关文章:

自回归模型胜过扩散模型:用于可扩展图像生成的 Llama

📜 文献卡 Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation作者: Peize Sun; Yi Jiang; Shoufa Chen; Shilong Zhang; Bingyue Peng; Ping Luo; Zehuan YuanDOI: 10.48550/arXiv.2406.06525摘要: We introduce LlamaGen, a new family …...

访问外网的安全保障——反向沙箱

反向沙箱作为一种网络安全技术,其核心理念在于通过构建一个隔离且受控的环境,来有效阻止潜在的网络威胁对真实系统的影响。在当今日益复杂的网络环境中,如何借助反向沙箱实现安全上网,已成为众多用户关注的焦点。 随着信息化的发…...

【绝对有用】C++ 字符串进行排序、vector增加内容 和 剔除值

在 C 中对字符串进行排序&#xff0c;可以使用标准库中的 std::sort 函数。std::sort 函数可以用于容器或范围内的元素排序&#xff0c;包括字符串中的字符。以下是一个简单的示例代码&#xff0c;展示了如何对字符串中的字符进行排序&#xff1a; #include <iostream> …...

GenICam标准(一)

系列文章目录 GenICam标准&#xff08;一&#xff09; GenICam标准&#xff08;二&#xff09; GenICam标准&#xff08;三&#xff09; GenICam标准&#xff08;四&#xff09; GenICam标准&#xff08;五&#xff09; GenICam标准&#xff08;六&#xff09; 文章目录 系列文…...

【Redis】分布式锁基本理论与简单实现

目录 分布式锁解释作用特性实现方式MySQL、Redis、Zookeeper三种方式对比 原理 reids分布式锁原理目的容错redis简单分布式锁实现锁接口实现类下单场景的实现容错场景1解决思路优化代码 容错场景2Lua脚本Redis利用Lua脚本解决多条命令原子性问题 释放锁的业务流程Lua脚本来表示…...

Web开发技术大作业(HTML\CSS\PHP\MYSQL\JS)

从6月13日到6月15日&#xff0c;经过一系列的操作&#xff0c;终于把老师布置的大作业写完了&#xff0c;虽然有很多水分&#xff0c;很多东西都是为了应付&#xff08;特别是最后做的那几个网页&#xff09;&#xff0c;真的是惨不忍睹&#xff0c;不过既然花时间写了&#xf…...

【全开源】沃德会务会议管理系统(FastAdmin+ThinkPHP+Uniapp)

沃德会务会议管理系统一款基于FastAdminThinkPHPUniapp开发的会议管理系统&#xff0c;对会议流程、开支、数量、标准、供应商提供一种标准化的管理方法。以达到量化成本节约&#xff0c;风险缓解和服务质量提升的目的。适用于大型论坛、峰会、学术会议、政府大会、合作伙伴大会…...

尚硅谷大数据技术ClickHouse教程-笔记01【ClickHouse单机安装、数据类型】

视频地址&#xff1a;一套上手ClickHouse-OLAP分析引擎&#xff0c;囊括Prometheus与Grafana_哔哩哔哩_bilibili 01_尚硅谷大数据技术之ClickHouse入门V1.0 尚硅谷大数据技术ClickHouse教程-笔记01【ClickHouse单机安装、数据类型】尚硅谷大数据技术ClickHouse教程-笔记02【表引…...

生产管理系统看板,在自动化设备领域的创新应用

在自动化设备领域&#xff0c;生产管理系统看板的创新应用是一项引人注目的技术进步。以广州某自动化设备有限公司为例&#xff0c;他们是一家涂装工程设备制造企业&#xff0c;将讯鹏生产管理系统电子看板成功应用于全自动立式静电喷粉线、卧式静电喷粉线、氟碳喷涂生产线等领…...

分享一个图片转换工具XnConvert

目录 stablediffusion3 生成图片效果图图片转换工具XnConvertpixzip stablediffusion3 生成图片效果图 今天在使用stablediffusion3时&#xff0c;尝试生成了几张Java的图片&#xff0c;发现确实很好看&#xff0c;文生图的效果超出我的预期&#xff0c;忍不住想要给自己的csd…...

Nginx后端超时504重复请求

在一次业务中客户端请求osb平台再经过nginx转发后端&#xff0c;开发反馈请求次数大于1导致问题&#xff0c;经排查客户端请求一次&#xff0c;osb平台设置超时为30s&#xff0c;nginx配置等待上游服务器响应时最多等待30秒 部分配置文件 upstream xx {server 10.6.6.1:8080 w…...

环境配置04:Pytorch下载安装

说明&#xff1a; 显存大于4G的建议使用GPU版本的pytorch&#xff0c;低于4G建议使用CPU版本pytorch&#xff0c;直接使用命令安装对应版本即可 GPU版本的pytorch的使用需要显卡支持&#xff0c;需要先安装CUDA&#xff0c;即需要完成以下安装 1.查看已安装CUDA版本 GPU对应…...

【杂记-浅谈私有地址】

私有地址 一、私有IP地址概述1、私有IP地址的实用性2、私有IP地址的局限性 二、私有IP地址范围1、A类私有地址2、B类私有地址3、C类私有地址 三、私有IP地址与公网IP地址的区别 一、私有IP地址概述 私有IP地址是互联网工程任务组&#xff08;IETF&#xff09;为组织机构内部使…...

Java基础学习-数组

目录 数组定义 注意点&#xff1a; 地址值是数组在内存中实际存储的地址。 案例遍历&#xff1a;遍历数组得到每一个元素&#xff0c;求数组里面所有数据和 案例&#xff1a;定义数组&#xff0c;遍历能被3整除的数字 案例&#xff1a;遍历一个数组&#xff0c;奇数将当前…...

爬虫 pandas Linux Flume Pig填空题

目录 试卷&#xff1a;Python网络数据处理 答案 试卷&#xff1a;Pandas基础操作 答案 试卷&#xff1a;Linux基础指令 答案 试卷&#xff1a;Apache Flume基础指令 答案 试卷&#xff1a;Apache Pig基础指令 答案&#xff1a; Hadoop题 答案 试卷&#xff1a;Pyth…...

Spring框架中哪些地方使用了反射

Spring框架中哪些地方使用了反射&#xff1f; 1. 依赖注入&#xff1a;Spring 使用反射机制获取对象并进行属性注入&#xff0c;从而实现依赖注入。 2. AOP&#xff1a;Spring AOP 使用 JDK 动态代理或者 CGLIB 字节码增强技术来实现 AOP 的切面逻辑&#xff0c;这其中就包含…...

难辨真假的Midjourney案例(附提示词):适合练手

人物 时尚女孩 Street style fashion photo, full-body shot of a young Chinese woman with long curly black hair, walking confidently with a crowd of people down a sidewalk in Hong Kong, wearing a emerald green Gucci maxi dress & gold jewelry, sunset lig…...

数据库讲解---(数据库保护)【上】

一.事务 1.1事务的概念【重要】 事务&#xff1a;“将一组数据库操作打包起来形成一个逻辑独立的单元&#xff0c;这个工作单元不可分割&#xff0c;其中包含的数据要么全部都发生&#xff0c;要么全部都不发生”。 在SQL中&#xff0c;界定事务的语句有三条&#xff1a; B…...

【Android】【Compose】Compose的简单介绍

前言 Jetpack Compose 是谷歌推出的用于构建现代化 Android 应用界面的工具包。它采用了声明式的方式来定义用户界面&#xff0c;与传统的 XML 布局和视图层次结构相比&#xff0c;Compose 提供了更直观、更简洁的方式来创建和管理界面组件。 需求配置 Android 版本要求 An…...

对接钉钉Stream模式考勤打卡相关事件的指南

钉钉之前的accessToken是公司级别的&#xff0c;现在的accessToken是基于应用的&#xff0c;接口的权限也是基于应用的。所以第一步是在钉钉开放平台&#xff08;https://open-dev.dingtalk.com/&#xff09;创建一个应用。 创建好应用之后&#xff0c;因为我们后续还需要调用钉…...

CRMEB PRO企业微信通讯录配置

企业微信通讯录配置 登录企业微信管理后台 企业微信 1、点击【管理工具】找到【通讯录同步】点击进入 2、点击【开启API接口同步】 进入设置【通讯录同步】页面后&#xff0c;权限一栏&#xff0c;勾选【API编辑通讯录】勾选【开启手动编辑】&#xff1b; 3、点击下图箭头所…...

直播新篇章 | 金仓数据库“零距离”探索与知识挑战双重奏

KING大咖成就计划 全新进阶&#xff01;&#xff01;&#xff01;携手知识竞答挑战赛震撼来袭~为您带来一场别开生面的金仓数据库探索之旅与知识竞答盛宴&#xff01; 直 播 活 动 01 大咖引领&#xff0c;KING BASE产品“零距离”体验 您是否对金仓数据库充满好奇&#x1f9d0…...

List的介绍

1. 什么是List List是一个接口&#xff0c;继承自Collection。 Collection也是一个接口&#xff0c;该接口中规范了后序容器中常用的一些方法。 Iterable也是一个接口&#xff0c;表示实现该接口的类是可以逐个元素进行遍历。 2. 常见接口介绍 List中提供了好的方法&#x…...

Uniapp获取具体地理位置

使用uniapp自带uni.getLocation获取当前定位经纬度 再调用高德逆地理编码API&#xff0c;查到具体位置信息 https://restapi.amap.com/v3/geocode/regeo?location${longitude},${latitude}&key${key}&extensionsall 但是个人申请的key&#xff0c;有配额限制 最多每…...

Kafka基础教程

Kafka基础教程 资料来源&#xff1a;Apache Kafka - Introduction (tutorialspoint.com) Apache Kafka起源于LinkedIn&#xff0c;后来在2011年成为一个开源Apache项目&#xff0c;然后在2012年成为一流的Apache项目。Kafka是用Scala和Java编写的。Apache Kafka是基于发布-订…...

视频智能分析平台智能边缘分析一体机安防监控平台打手机检测算法工作原理介绍

智能边缘分析一体机的打手机检测算法是一种集成了计算机视觉和人工智能技术的先进算法&#xff0c;专门用于实时监测和识别监控画面中的打手机行为。以下是关于该算法的详细介绍&#xff1a; 工作原理 1、视频流获取&#xff1a; 智能边缘分析一体机首先通过连接的视频监控设…...

辅助构造函数相关学习以及php实现

https://mp.weixin.qq.com/s/J9hgLTxYi7ZJdFVG2VszQg 对这个文章进行摘要生成 ### 总体概要 文章阐述了在对象创建过程中&#xff0c;辅助构造函数&#xff08;或称为“多个”构造函数&#xff09;的重要性&#xff0c;它们为代码增加了功能性逻辑&#xff0c;并允许根据需求调…...

Linux中nginx.conf如何配置【搬代码】

Nginx 是一个独立的软件。 它是一款高性能的 Web 服务器、反向代理服务器和负载均衡器等&#xff0c;具有强大的功能和广泛的应用场景。它通常需要单独进行安装和配置来发挥其作用。 下载网址&#xff1a;http://nginx.org/en/download.html nginx.conf写法&#xff1a; #配置…...

Django REST framework序列化器详解:普通序列化器与模型序列化器的选择与运用

系列文章目录 Django入门全攻略&#xff1a;从零搭建你的第一个Web项目Django ORM入门指南&#xff1a;从概念到实践&#xff0c;掌握模型创建、迁移与视图操作Django ORM实战&#xff1a;模型字段与元选项配置&#xff0c;以及链式过滤与QF查询详解Django ORM深度游&#xff…...

红队内网攻防渗透:内网渗透之内网对抗:隧道技术篇防火墙组策略ICMPDNSSMB协议出网判断C2上线解决方案

红队内网攻防渗透 1. 内网隧道技术1.1 学隧道前先搞清楚的知识1.2 常用的隧道技术1.3 判断协议出网的命令1.4 C2上线-开防火墙入站只80&出站只放ICMP1.4.1 icmp隧道上线CS后门1.4.1 icmp隧道上线MSF后门1.5 C2上线-开防火墙入站只80&出站只放DNS1.5.1 DNS隧道上线CS后门…...

网站建设与管理量化考细则/百度seo关键词排名

1. 简介 如果您对 Subversion 还比较陌生&#xff0c;本节将给您一个关于 Subversion 的简要介绍。 Subversion 是一款开放源代码的版本控制系统。使用 Subversion&#xff0c;您可以重新加载源代码和文档的历史版本。Subversion 管理了源代码在各个时期的版本。一个文件树被…...

上海装修公司排名榜前30名/企业网站seo优化

在mybaits中#{}和${}都可以用来传递参数&#xff0c;那么他们有何不同呢&#xff0c;下面来看看他们的是如何执行的&#xff0c;相信你看了之后就会明白他们的区别了。   #{}的方式&#xff1a;   XML文件配置的sql如下&#xff1a; <select id"findCommodityByKe…...

做网站还有前景么/seo交流论坛seo顾问

线性代数之向量、矩阵、行列式、列向量的计算 标签&#xff08;空格分隔&#xff09;&#xff1a; 线性代数 1、向量与实数的的乘法&#xff1a; 2∗[23][46]2∗[23][46]2*\left[\begin{matrix}2 \\3 \end{matrix}\right] =\left[\begin{matrix}4 \\6 \end{matrix}\right]…...

上海公司企业网站怎么做/steam交易链接在哪

编辑.转到引用 Shift F12 显示代码中所选内容的引用。 编辑.转到定义 F12 显示代码中所选内容。 编辑.Ctrl减号、CTRL SHIFT 减号 通过Ctrl减号你可以快速的返回到函数的调用处 编辑.向下调大控件大小 Ctrl Shift 向下键 在设计图面上&#xff0c;以 1 为增量&#xf…...

宁波网站搜索引擎优化/想要推广页

试试...

重庆网上商城网站建设公司/seo网站推广优化就找微源优化

随着5G手机入网许可的陆续发放&#xff0c;第一批5G手机已经开始上市发售。在价格方面&#xff0c;5G手机并未像此前预测的超过万元。vivo通信研究院总经理秦飞在接受媒体采访时透露&#xff0c;首款5G手机将在8月份上市&#xff0c;价格亲民&#xff0c;或将亏本售卖。中国移动…...