Stable Diffusion 3 发布,AI生图效果,再次到达全新里程碑!
AI生图效果,再次到达全新里程碑!
Prompt:Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy
提示(意译版):在一幅充满史诗感的动漫画面中,一位巫师屹立于夜幕笼罩的山巅之上,正用他的法杖向漆黑无垠的夜空中施展一道震撼宇宙的魔法。这道法术在夜空中绽放,化作由五彩缤纷的能量构成的「Stable Diffusion 3」字样,犹如夜空中最璀璨的星辰。
网友复刻版,同样惊艳:
网友惊呼:这种prompt的一致性是我见过最好的!
这次的Stable Diffusion 3,在图像质量、多个对象、拼写能力方面,都得到了显著提升。
甚至,它似乎还涌现出了对物理世界的「理解」。
Prompt: A horse balancing on top of a colorful ball in a field with green grass and a mountain in the background.
提示(意译版):一匹马优雅地站在一个五彩斑斓的球上,周围是一片生机勃勃的绿色草地。远处,一座雄伟的山峦巍峨地矗立。
Prompt:Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat
提示:一个红色的球体放在一个蓝色的立方体上面。在它们后面是一个绿色的三角形,在右边是一只狗,在左边是一只猫。
而DALL-E 3就相形见拙了。
关于Stable Diffusion 3.0的核心技术进展,CEO Emd总结了一份「太长不看版」摘要——
- 采用了与Sora类似的Diffusion Transformer技术,并结合了流匹配(Flow Matching)等多项技术改进。
- 通过利用对Transformer的改进,不仅使得系统扩展性更强,还能处理多种类型的输入数据。
- 将以开源形式发布,通过预览版的测试来进一步提升系统的质量和安全性。
- 发布时,将包含一套完整的工具。
- 基于最新硬件技术打造的新平台,可以支持多种规模的版本。
- 支持生成视频、3D以及更多类型的内容创作。
- 需要更多的GPU来实现更强大的计算能力。
不得不说,最近这段时间,DiT实火!
目前,模型可选择的参数范围在800M到8B之间。
现在,已经可以在这里加入候补名单,申请SD3的访问权限了:https://stability.ai/stablediffusion3
Stable Diffusion 3,文字渲染能力超进化
按照prompt生成指定文字,一直以来都是文生图模型的老大难问题。
从左到右:DeepFloyd IF、DALLE-2、Bing Image Creator、Midjourneyv5.2、SDXL v0.9(2023年7月)
但是这次,SD3模型对于prompt理解得很好,在黑板上正确写出了「go big or go home」。
而且画面非常写实,远近位置、光影,都显得极其自然。
Prompt: cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home" written in chalk.
提示(意译版):这张电影级视觉效果的照片,捕捉到了一个静谧的教室瞬间,一颗鲜红的苹果静静地躺在桌子上,而在它背后的黑板上,则用醒目的粉笔字写着——「要么做大,要么回家」。
相比之下,Midjourney的图是这样的:
Gemini Advanced / Ultra的图是这样的:
DALL-E 3的图是这样的:
各种形式的文字渲染,SD3 都出色地完成了。
Prompt:Resting on the kitchen table is an embroidered cloth with the text 'good night' and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic.
提示:厨房桌上铺着一块精美的绣布,上面绣着「good night」字样和一只可爱的小老虎。旁边,一支蜡烛静静燃烧,散发出柔和而略带戏剧性的光影。
Prompt:Photo of an 90's desktop computer on a work desk, on the computer screen it says "welcome". On the wall in the background we see beautiful graffiti with the text "SD3" very large on the wall.
提示:一台放在工作桌上的90年代的台式电脑,屏幕上写着「welcome」。在背后的墙面上,有一幅醒目的涂鸦艺术作品,写的是「SD3」。
Prompt: Anime style illustration of a newsstand on top of a small grassy hill, on top of the newsstand we see the text "it's here!". In the background we see a big rain approaching.
提示:这是一幅充满动漫特色的插画,一个报刊亭坐落在一片绿意盎然的小山丘上,亭顶醒目地展示着「it's here!」的字样。而在这个宁静的场景背后,一场壮观的暴雨即将来临。
Prompt: Night photo of a sports car with the text "SD3" on the side, the car is on a race track at high speed, a huge road sign with the text "faster".
提示:在这幅夜幕下的摄影作品中,一辆标有「SD3」字样的运动赛车正在赛道上疾驰。背景里,一块巨大的路牌显眼地展示着「faster」一词。
Prompt: Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3.
提示:一张木桌上摆放着三个透明的玻璃瓶。从左至右,每个瓶子内分别充满了鲜艳的红、蓝、绿色液体。瓶子上,用数字1、2、3进行了标记。
Prompt: Photo of a rectangular orange neon sign with the text "even more stable", the sign is on the wall in a metro station, subway speeding by in the background, perspective photo.
Stable Diffusion 3.0能在文字渲染能力上取得显著提升,是因为Stability AI在新模型中采用了全新技术——Transformer和新增的文本编码功能。
CEO Emad Mostaque解释说,因为上述原因,现在SD 3不仅能生成完整句子,还能保持风格的一致性。
宇航员骑着粉色芭蕾舞裙猪,除SD 3竟然全军覆没?
处理包含多个对象的Prompt的能力,也是考核AI生图模型的一大关键指标。
下面这个prompt,着实难倒了一大片选手——
一幅宇航员撑着粉色雨伞、骑着一只穿着芭蕾舞短裙的猪的画,猪旁边的地上是一只戴着高顶帽子的知更鸟,画面的角落里写着「stable diffusion」。
这个prompt,要求模型正确理解对象的属性、位置,以及正确呈现字体很小的文本,着实是一道难题。
如此要素拉满的细节要求,SD3.0全部理解,并且精确地完成了!
宇航员,粉色雨伞、穿着粉芭蕾舞裙的猪、戴高帽的知更鸟、角落里的字,100%符合prompt的要求。这就表明:模型很好地理解了prompt。
Prompt: a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion"
对于同一prompt,其他模型的表现就落后了。
DALL-E 3画出的画倒是过关了,但它把「Diffusion」拼错了。
Bing的表现就更是离谱了,有的图中芭蕾舞裙的颜色不对,有的知更鸟站在了猪脑袋上,有的更是画面中飞满了知更鸟。而「Stable Diffusion」更是错得离谱。
Gemini Advanced这个差生的答案就更惨不忍睹了,除了拼写问题,画也没画对。
下面出场的,就是以画面质量精美著称的优秀文生图选手Midjourney了。
从画面美感上说,MJ依然甩其他模型一条街,但是考试就是考试,「Stable Diffusion」,它也没拼对。
总结下来,这一道考题唯一的满分选手,就是Stable Diffusion 3!
和Sora同样的Diffusion Transformer架构
所以,Stable Diffusion 3.0为何有如此突飞猛进的表现?
原因在于,它采用了全新的架构设计。
Stability AI的首席执行官Emad Mostaque表示——
「Stable Diffusion 3 采用了Diffusion Transformer架构,这是一种新型的架构设计,与OpenAI最近推出的Sora模型采用的架构相似。」
在以前的Stable Diffusion版本中,并未采用Transformer技术。
而Stable Diffusion 3.0采用了一种全新的方法,引入了Diffusion Transformer 技术。如果你对最近的爆火的sora有所了解,肯定对这个技术已经耳熟能详了。
Transformer技术是,当前生成式AI革命的核心,广泛应用于文本生成模型中。而图像生成技术,则主要基于Diffusion模型。
Sora作者之一William和谢赛宁,在这篇论文中共同提出了Sora的基础架构。
论文地址:https://arxiv.org/abs/2212.09748
这篇详细介绍DiTs的论文指出,这种基于扩散模型的新架构,可以用在图像patch上运行的Transformer替代了传统的U-Net架构。
这样,DiTs方法就可以更高效地利用计算资源,并且在图像生成方面超越了其他扩散模型技术。
一篇因「缺乏创新性」被CVPR 2023拒收的论文,竟成了Sora和Stable Diffusion 3.0的奠基之作,学术创新和工程创新的区别,着实引人深究。
Stable Diffusion 3.0 的另一个创新亮点,就是流匹配技术。
一篇关于流匹配的研究论文介绍了这一新方法,它可以用于训练连续归一化流(Continuous Normalizing Flows, CNFs),以便更准确地模拟复杂的数据分布。
论文地址:https://arxiv.org/abs/2210.02747
研究表明,通过结合使用条件流匹配(Conditional Flow Matching, CFM)和最优传输路径,可以实现更快的训练速度、更高效的样本生成,并且在性能上超越传统的扩散路径方法。
其实,Stability AI一直在探索多种新颖的图像生成技术。
就在本月初,他们就推出了一项名为Stable Cascade的新技术。
它基于一种名为Würstchen的先进架构,旨在提升生成图像的性能和精确度。
一大波整活来了
在图像质量上,SD 3.0也取得了令人震惊的进步。
「变色龙在黑色背景上的摄影棚照片特写」,它生成的图是这样的。
Prompt:studio photograph closeup of a chameleon over a black background.
Gemini Advanced/Ultra生图是这样的。
Midjourney是这样的。
因为题干没有区分度,所以大家表现差不多。
从更多的演示中可以看出,无论是在自然写实风景,还是在漫画、海报中,SD 3不仅做到了正确还原文字,还让文字和画面做到了很好的融合,一点都不突兀。
Prompt: Trees photographed under the Milky Way, the moon and twilight shine on the Valley. The full moon appears high in the sky and the twilight glow can still be seen.
再比如黑客帝国中的Neo狗。
威尔史密斯吃面,AI模型的终极图灵测试。
Stable Video同时发力
此外,就在不久前,Stable Video也正式开放公测了。
背后还是基于Stable Video Diffusion 1.1。
体验地址:https://www.stablevideo.com/
从前,这个模型需要用户自己上手部署,现在已经人人可用了,甚至不需要排队!
虽然跟登月级的Sora还有很大差距,但视频效果已经可以和Runway一拼。
2024年才一开年,节奏就已经这么炸裂了。今年注定是AIGC史上不平凡的一年。
本文由 mdnice 多平台发布
相关文章:
Stable Diffusion 3 发布,AI生图效果,再次到达全新里程碑!
AI生图效果,再次到达全新里程碑! Prompt:Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy 提示(意译…...
单例模式怎样实现单例(独例)?
在类定义中加入私有属性 __init__flag Ture,在随后的初始化处理中,判断该属性为真时进行相应的初始化操作,否则,跳过相应的初始化操作。这个机制,保证在进行后续的调用时,不再占用额外的内存开销。 当然了,…...
MySQL——基础内容
目录 第01章_数据库概述 关系型数据库(RDBMS)——表、关系模型 非关系型数据库(非RDBMS) 表、记录、字段 表的关联关系 一对一关联 一对多关系 多对多 自我引用 第02章_MySQL环境搭建 登录命令 常用命令 show databases; create database use 数据库名 show tables 第03章…...
node 之 初步认识
思考:为什么JavaScript可以在浏览器中被执行 代执行的js代码——JavaScript解析引擎 不同的浏览器使用不同的JavaScript解析引擎 Chrome 浏览器 》 V8 Firefox浏览器 》OdinMonkey(奥丁猴) Safri浏览器 》JSCore IE浏览器 》Chakra(查克拉) e…...
css复习
盒模型相关: border:1px solid red (没有顺序) 单元格的border会发生重叠,如果不想要重叠设置 border-collapse:collapse (表示相邻边框合并在一起) padding padding影响盒子大小的好处使用 margin应用: 行内或行内块元素水…...
HTML5和CSS3提高
一、HTML5的新特性 增加了一些新的标签,新的表单,新的表单属性,IE9以上版本的浏览器才支持 注意: 这些语义化标准主要针对搜索引擎的 新标签可以使用多次 在IE9中需要把这些元素转化为块级元素 新增的多媒体标签 主要包含两个…...
感受2024生物发酵展示会-明章机械
参展企业介绍 温州明章机械有限公司是一家专业从事搅拌传动装置机械密封,减速机,机架,联轴器及相关配件。设计、开发及生产的服务型高新技术企业公司,座落于浙江省温州市瓯海区娄桥镇高新工业园区豪新路42号,交通位置…...
算法打卡day1|数组篇|Leetcode 704.二分查找、27.移除元素
数组理论基础 数组是存放在连续内存空间上的相同类型数据的集合,可以方便的通过下标索引的方式获取到下标下对应的数据。 1.数组下标都是从0开始的。 2.数组内存空间的地址是连续的。 正是因为数组的在内存空间的地址是连续的,所以我们在删除或者增添…...
什么是高阶组件
高阶组件(HOC)是 React 中用于复用组件逻辑的一种高级技巧。简单来说,高阶组件就是一个函数,该函数接受一个组件作为参数,并返回一个新的组件。这个新的组件会使用你传给它的组件作为子组件。 高阶组件并不是真的组件…...
python实现裂区试验方差分析
方差分析(Analysis of Variance,ANOVA)是一种统计方法,用于比较三个或三个以上组别的平均值是否存在显著差异。它通过比较组内变异和组间变异的大小来判断组别间的平均值是否有显著差异。 方差分析通常用于以下情况: …...
Vue v-for、v-if、v-show常见问题
vue使用v-for遍历对象时,是按照什么顺序遍历的?如何保证顺序? 会先判断对象是否存在iterator接口,如果有循环执行next()方法。 没有iterator的情况下,会调用Object.Keys()方法,在不同的浏览器中ÿ…...
GPT技术在学术研究中的革命性应用:开启论文创作新篇章
在学术界,撰写高质量的论文一直是一个挑战性的任务,它不仅需要深厚的专业知识,还要求良好的文献综述能力、数据分析技巧以及清晰的表达能力。近年来,随着人工智能技术的飞速发展,尤其是生成式预训练变换器(…...
【K8s】-- 描述容器中 pod 的状态
命令:kubectl describe pod -n 你的namespace名称 pod 名称 举例:kubectl describe pod -n my-flink --context prod-5 test-record-all-new-mc-taskmanager-1-1 Name: test-record-all-new-mc-taskmanager-1-1 Namespace: ky-flink Pri…...
使用yolo-seg模型实现自定义自动动态抠图
yolov8导航 如果大家想要了解关于yolov8的其他任务和相关内容可以点击这个链接,我这边整理了许多其他任务的说明博文,后续也会持续更新,包括yolov8模型优化、sam等等的相关内容。 YOLOv8(附带各种任务详细说明链接) …...
FairyGUI × Cocos Creator 3.x 场景切换
前言 前文提要: FariyGUI Cocos Creator 入门 FairyGUI Cocos Creator 3.x 使用方式 个人demo:https://gitcode.net/qq_36286039/fgui_cocos_demo_dust 个人demo可能会更新其他代码,还请读者阅读本文内容,自行理解并实现。 官…...
【Java程序设计】【C00288】基于Springboot的篮球竞赛预约平台(有论文)
基于Springboot的篮球竞赛预约平台(有论文) 项目简介项目获取开发环境项目技术运行截图 项目简介 这是一个基于Springboot的篮球竞赛预约平台 本系统分为前台功能模块、管理员功能模块以及用户功能模块。 前台功能模块:用户进入到平台首页&a…...
textbox文本框跨线程写入,扩展textobx控件
在Windows Forms中,由于UI控件不是线程安全的,直接跨线程访问和修改UI控件通常会导致不可预测的行为或异常。TextBox 控件同样不能直接从非创建它的线程进行写入。为了安全地在不同线程间更新 TextBox 控件的内容,你可以使用控件的 Invoke 方…...
【踩坑】PyTorch中指定GPU不生效和GPU编号不一致问题
转载请注明出处:小锋学长生活大爆炸[xfxuezhang.cn] 指定GPU不生效问题 解释:就是使用os.environ["CUDA_VISIBLE_DEVICES"] "1"后,后面使用起来仍然是cuda0. 解决:在最开头就使用 import os os.environ[&…...
线性代数:向量、张量、矩阵和标量
线性代数:向量、张量、矩阵和标量 背景 在线性代数中,向量、张量、矩阵和标量都属于基础概念,特别是最近AI的爆火,向量和张量的概念也越来越普及,本文将介绍下这些基本概念。 1. 标量(Scalar࿰…...
WordPres Bricks Builder 前台RCE漏洞
免责声明:文章来源互联网收集整理,请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该…...
基于大模型的 UI 自动化系统
基于大模型的 UI 自动化系统 下面是一个完整的 Python 系统,利用大模型实现智能 UI 自动化,结合计算机视觉和自然语言处理技术,实现"看屏操作"的能力。 系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...
Python爬虫实战:研究feedparser库相关技术
1. 引言 1.1 研究背景与意义 在当今信息爆炸的时代,互联网上存在着海量的信息资源。RSS(Really Simple Syndication)作为一种标准化的信息聚合技术,被广泛用于网站内容的发布和订阅。通过 RSS,用户可以方便地获取网站更新的内容,而无需频繁访问各个网站。 然而,互联网…...
ElasticSearch搜索引擎之倒排索引及其底层算法
文章目录 一、搜索引擎1、什么是搜索引擎?2、搜索引擎的分类3、常用的搜索引擎4、搜索引擎的特点二、倒排索引1、简介2、为什么倒排索引不用B+树1.创建时间长,文件大。2.其次,树深,IO次数可怕。3.索引可能会失效。4.精准度差。三. 倒排索引四、算法1、Term Index的算法2、 …...
LLM基础1_语言模型如何处理文本
基于GitHub项目:https://github.com/datawhalechina/llms-from-scratch-cn 工具介绍 tiktoken:OpenAI开发的专业"分词器" torch:Facebook开发的强力计算引擎,相当于超级计算器 理解词嵌入:给词语画"…...
在WSL2的Ubuntu镜像中安装Docker
Docker官网链接: https://docs.docker.com/engine/install/ubuntu/ 1、运行以下命令卸载所有冲突的软件包: for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done2、设置Docker…...
如何在网页里填写 PDF 表格?
有时候,你可能希望用户能在你的网站上填写 PDF 表单。然而,这件事并不简单,因为 PDF 并不是一种原生的网页格式。虽然浏览器可以显示 PDF 文件,但原生并不支持编辑或填写它们。更糟的是,如果你想收集表单数据ÿ…...
Java线上CPU飙高问题排查全指南
一、引言 在Java应用的线上运行环境中,CPU飙高是一个常见且棘手的性能问题。当系统出现CPU飙高时,通常会导致应用响应缓慢,甚至服务不可用,严重影响用户体验和业务运行。因此,掌握一套科学有效的CPU飙高问题排查方法&…...
Yolov8 目标检测蒸馏学习记录
yolov8系列模型蒸馏基本流程,代码下载:这里本人提交了一个demo:djdll/Yolov8_Distillation: Yolov8轻量化_蒸馏代码实现 在轻量化模型设计中,**知识蒸馏(Knowledge Distillation)**被广泛应用,作为提升模型…...
逻辑回归暴力训练预测金融欺诈
简述 「使用逻辑回归暴力预测金融欺诈,并不断增加特征维度持续测试」的做法,体现了一种逐步建模与迭代验证的实验思路,在金融欺诈检测中非常有价值,本文作为一篇回顾性记录了早年间公司给某行做反欺诈预测用到的技术和思路。百度…...
LabVIEW双光子成像系统技术
双光子成像技术的核心特性 双光子成像通过双低能量光子协同激发机制,展现出显著的技术优势: 深层组织穿透能力:适用于活体组织深度成像 高分辨率观测性能:满足微观结构的精细研究需求 低光毒性特点:减少对样本的损伤…...
