当前位置: 首页 > news >正文

当下最强的 AI art 生成模型 Stable Diffusion 最全面介绍

目录

  1. 模型生成效果展示(prompt 全公开)

  2. 如何注册 Stable Diffusion 使用

  3. SD(dreamstudio.ai )的收费标注如何

  4. SD 提供哪些参数可以设置

  5. 如何使用种子来改进一张作品

  6. 我用 SD 创作的图片著作权如何归属,可以拿来商用吗?

  7. Stable Diffusion 背后的研发团队

  8. SD 是如何训练出来的?

  9. SD 是开源的吗?

  10. SD 未来有哪些可期待的亮点

附录:一些有用的资源

从本月初开始拿到 Stable Diffusion 的内测资格,我就再也没有打开过沉迷许久的 Disco Diffusion。

五天前,被视为当下最强的 AI 图像生成器的 Stable Diffusion 正式对公众开放,通过网站注册即可使用,提供了简洁、友好的 UI 交互,相比 DD 大大降低了 AI 图像创作工具的使用门槛和难度。而且生成速度快,生成的图形各方面表现都非常优秀。除了要花钱,简直没缺点啦。

不想花钱?还有好消息:SD 同时正式开源了代码、模型和权重参数库,部署到自己本地的 GPU上就等于免费啦。

先看效果。以下图像都是 Stable Diffusion 直出,无任何后期。Prompt 在图的下方。其中 7 张作品由某不愿意透露姓名的高手提供,感谢他授权并愿意分享宝贵的 prompt。

PS. 如所有的 AI 生成模型的效果演示,下列图像都经过了 cheery pick,从同一个 prompt 的 4~10 次生成结果中挑选出了最令我满意的一张。

先来看几种常见的艺术媒介:

黑白版画,无论是主题的准确性、氛围感、生物体和建筑体结构,还是构图、笔触肌理、光影对比,都接近完美。

black and white illustration of bloodborne, close-up street view of a victorian town at night, horrible, moon rising, by bernie wrightson, by dan mumford, by aaron horkey, cross hatching, high contrast, super detailed, minimalist composition, 4k

illustration print of horse head sculpture, super detailed, by dan mumford, by aaron horkey, high contrast, low poly style

a bear stealing food from a cooler beside camping fire, black and white engraving printmaking, cross hatching

水彩,cold pressed 水彩纸的纹理也还原得很清楚。

fine watercolor painting portrait of beautiful girl holding a lazy cat, neat, elegant, by ilya kuvshinov, by ben quilty, by hikari shimoda

厚涂油画

thick coated oil painting close-up portrait of sad boy, by ben quilty, by hikari shimoda

**艺术家,**用 SD 创作的《席勒的自画像》,prompt 只用了 5 个词,第一次就跑出了颇为惊人的成果。跟年轻时的席勒颇为相像,也继承了其油画作品中标志性的笔触和用色,除了缺失一些表现主义的扭曲与癫狂感。

Self-Portrait by Egon Schiele

席勒及其原作

艺术风格

Stable Diffusion 生成荷兰黄金时代的静物油画——公牛头骨。

a bull skull, Dutch Age, oil on canvas, super detailed, high saturation, Golden ratio, centered and symmetrical composition

1628 年荷兰黄金时代的静物画,大都会博物馆馆藏
Pieter Claesz, Still Life with a Skull and a Writing Quill

风光摄影类作品的生成,(低分辨率)糖水片随便出啦。

a beautiful landscape photography of snow covered Rocky mountains, a dead intricate tree in the foreground, sunset, dramatic lighting, by Marc Adamus

建筑和风景画题材,无论是哥特小镇的夜景,还是中国古建筑的雪景,都能驾驭。

illustration of close-up street view of gothic town, night, by peter mohrbacher, by alex andreev, by jacek yerka, large depth of field, super detailed, digital art, trending on artstation, minimalism

winter winter winter winter a chinese temple building on hill and cliff with many peach trees blossoms, on himalayas, fantasy scene, fairy particle, illustration comic manga painting of road environment : 6 fantasy environment, digital painting, volumetric lighting by feng zhu, 3d alejandro alvarez alena aenami artworks in 4 k beeple, by thomas kinkade hearstone league of legends dofus overwatch(匿名高手作品)

宏大场景的渲染

military base,cybernetic baroque centipede cyborg urban epic scene + wall is berlin iron, inside organic robotic tubes and parts + translucent surface, German Third Reich army cyberpunk 2077+ Intricate Details, Hyperrealism, Wet, unreal engine, 3d, reflections + by Arsen Asyrankulov and Liudmila Kirdiashkina (匿名高手作品)

Hyper detailed painting of a cyberpunk cyberpunk cyberpunk TRAIN STATION, epic angle , ribcage skeleton symmetrical artwork, Hell of fire,3d with depth of field, blurred background, translucent, nautilus, energy flows of water and fire. a highly detailed epic cinematic concept art CG render. made in Maya, Blender and Photoshop, octane render, excellent composition, cinematic dystopian brutalist atmosphere, dynamic dramatic cinematic lighting, aesthetic, very inspirational, arthouse. y Greg Rutkowski, Ilya Kuvshinov, by James Jean and dan mumford (匿名高手作品)

3D 渲染类,浮雕徽章,皇冠,珠宝,水中的烟雾状蓝色墨水

fine silver badge, baroque pattern, relief angry cat, medieval, merchandise display, photorealistic, hyper realistic, octane render

fine golden crown, baroque pattern, merchandise display, photorealistic, hyper realistic, dramatic and epic, octane render

close-up maximalist rendering of lizard shape jewelry, rubies, gold, diamonds, obsidian, sapphires, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed, fluid dark metal

full display of baroque style jewelry design, a pair of earrings, blue gemstones with different saturation winged butterflies and pear shaped diamonds, roses sharp, highly detailed vray render, flash (匿名高手作品)

rendering of blue ink in clear transparent water, smoke

数字插画类

the last spaceship passing through the dark wormhole, dark and deathful, by kilian eng

the last supergigantic spaceship floating across the gate of wormhole, dark and deathful, by kilian eng

close-up maximalist illustration of panther, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed, hd wallpaper, digital art

close-up maximalist illustration of black panther, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed

maximalist close-up illustration cat portrait like nobility, royal cat queen portrait, aristocratic dress, by makoto shinkai, by akihiko yoshida, by james jean, super detailed, fluid dark metal

close-up maximalist illustration of lion, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed

close-up maximalist illustration of lion, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed

被视为 AI 图像生成之皇冠明珠的肖像画,Stable Diffusion 也充分胜任。无论侧视,¾ 视图还是正面肖像,无论插画、动漫、水彩等手绘抽象风格,还是照片类高仿真度的光影渲染,无论男女老幼,无不游刃有余,且在艺术感和风格多样性上远超 DALL·E。

maximalist close-up illustration side - view portrait of a beautiful elegant graceful girl, nautilus, long curls hairstyle, dressing with blue sea wave, art by james jean, bexquisite details, undersea background, golden ratio composition

maximalist close-up portrait illustration of a beautiful elegant cool siren, long curly hairstyle, dressing with blue sea wave and golden fish, art by james jean, by makoto shinkai, by agnes lawrence pelton, golden ratio composition,super detailed

maximalist close-up watercolor of a cool youth queen portrait with vintage golden crown, long curly hairstyles, with death rose and sea wave background, by makoto shinkai, art by james jean, by agnes lawrence pelton, exquisite details,golden ratio composition

close-up side view portrait of cyborg geisha, super intricate ornaments artwork by tooth wu and wlop, by alena aenami, by alphonse mucha, by brian froud, by pablo amaringo, super detailed, large depth of field

portrait of anime feminine long hair silver hair young man in suit, pen and ink, intricate line drawings, by craig mullins, ruan jia, kentaro miura, greg rutkowski, loundraw and dan mumford (匿名高手作品)

portrait of anime feminine long silver hair young man in suit, epic pose, pen and ink, intricate line drawings, by craig mullins, ruan jia, kentaro miura, greg rutkowski, loundraw and dan mumford (匿名高手作品)

portrait of anime muscular young man in armor, epic pose, pen and ink, intricate line drawings, by craig mullins, ruan jia, kentaro miura, greg rutkowski, loundraw and dan mumford (匿名高手作品)

名人肖像生成是颇有争议的功能,DALL·E 等大厂都对人名设置了输入过滤器。但 stability.ai 对此秉承一个开放的态度。在 prompt 里输入名人,如神奇女侠 Gal Gadot,SD 能够准确生成对应的脸部。

portrait painting of beautiful Gal Gadot as a Mermaid, undersea, super real, highly detailed face, realistic face, beautiful detailed eyes, fantasy art, sharp focus, front light

如何注册 Stable Diffusion 使用

从 7 月 30 日开始,Stability.ai 通过 waitlist 申请名单,共分 4 波邀请了 15000 名用户参与了内测。

内测持续了约三周时间,在一个 Discord 群组中进行,跟 Midjournet 的服务模式一样。群组中共有 50 个创建通道。所有人只要输入 !dream + prompt + 参数 就发起了一次图片生成请求(免费的),几秒钟内 discord bot 就会将结果图片呈现给你。没有跟 bot 的私有对话通道,这意味着所有人的 prompt 及对应结果都是公开的。你可以看到所有参与测试用户进行的创作实验。

8 月 9 日,内测用户达到一万人时,SD 发布了discord 内的活跃数据:每秒钟有 20 张图片生成,每天一千七百万张,平均每人每天生成了 170 张图片,相当疯狂。

8 月 13 日,第一阶段内测 (使用 discord bot 功能)关闭,不再接受新的申请。

8 月 20 日,Stability.ai 宣布第一阶段内测正式结束,discord bot 服务关闭。Stable Diffusion 的服务转移到网页,正式对公众开放。当然,免费午餐也结束了。

现在,所有人注册账号就可以在网页上使用。既然是网页服务,在手机、平板、任何操作系统都可以使用哦

https://beta.dreamstudio.ai/

Stable Diffusion (dreamstudio.ai )的收费标注如何

所有新注册的用户都能免费获赠价值两英镑的 200 个点数。每次标准生成耗费 1 个点数。

1 次标准生成指的是生成单张 尺寸为 512*512,Steps 为 50 的图片。如果你想要提高步数和尺寸,所消耗的点数将成倍增加。

参考官网给出的下表可见,最小尺寸 512*512 的图像,如把 steps 设为 150,消耗的点数为 3,价值 0.03 英镑。而最大尺寸最高步数的单张图片生成将消耗 28.2 点数,价值为 0.28 英镑。

相比同类服务的收费

DALL·E 的定价是 美元 15 刀,115 次生成。每次生成请求会返回 3~4 张 1024*1204 尺寸的结果图片,每次耗费 0.13 美元,约等于 0.11 英镑。

Midjournet 则为按月订阅收费,个人用户有每月 10 美元和 30 美元两档,分别对应 200 和 900 次标准生成或放大请求(1 次标准生成请求对应 1 GPU minute,在 fast 模式下。每次生成会获得四张 256*256 的初始结果,你可以选择放大,每次放大也耗费 1 GPU min)。超过限额后,每 60 GPU min 售价 4 美元。但使用这两档订阅服务,你的 prompt 和结果图片都将暴露在十分混乱的公共频道中,除非你每月再画上个 20 美元才能享有私密的服务通道。

有人可能会认为生成大尺寸图片,Stable Diffusion 的定价看起来太贵。但这三种生成模型的结果图片尺寸并不能简单换算,也并不完全等同于画质。

我的实验经验表明,对于 Stable Diffusion,想要生成大尺寸图片,将图片高度和宽度的设置拉到最高 1024px 并非一个好的选择。如 512*768 的尺寸生成的人像,很可能出现上下两张脸。768*512 的横幅尺寸生成的景观画,也一定概率会在地平线上横排出两个主题对象。目前我大部分较好构图的结果都是使用默认尺寸 512*512 生成的,这跟模型的算法相关。

beautiful portrait by Karol Bak, sci-fi, digital art

a beautiful landscape photography of mountains, a dead intricate tree in the foreground, sunset, dramatic lighting, by Marc Adamu

从画质和细节丰富程度上比较,Stable Diffusion 的 512*512 毫不逊色于 DALL·E 2 的 1024*1024。而 Midjournet 的画质和噪点问题则一直是社区诟病的 (新算法版本中已有很大改善)。

Stable Diffusion 提供哪些参数可以设置

不像 Disco Diffusion 需要掌握对 20~30 个参数的学习和实践运用,SD 只提供了 7 个可设置的参数,非常简单。

长宽尺寸:并不是数值越大效果越好,长宽的理想范围都是在 512~768 px 之间,除非你想要的生成效果不在乎主题对象的重复出现。希望获得更高分辨率的图片,最好还是先用 SD 生成以后,再寻找合适的模型进行 upscale。

CFG scale,**类似 DD 里的 CGS 参数。**越高的数值会让生成结果跟 prompt 匹配度更高,同时也会让结果图片的饱和度和对比度更高,颜色更平滑,纹理更少。但高于 20 后会出现不良效果。

**Steps:**diffusion model 生成图片的迭代步数,每多一次迭代都会给 AI 更多的机会去比对 prompt 和 当前结果,去调整图片。更高的步数需要花费更多的计算时间,也相对更贵。但不一定意味着更好的结果。当然迭代步数不足(少于 50)肯定会降低结果的图像质量。

Number of images: 每次 prompt 指令生成多少张图片结果供选择。4 张是一个比较理想的选择,因为 stable diffsuion 的种子随机性很强,同一批返回结果里可能有好有坏,差距很大。当然选择生成的数量越多,计算时间就越长,每多一张就要多花一张的 credit。

black and white pen illustration a running cat, super detailed, by dan mumford, by aaron horkey, high contrast

**Sampler:**扩散去噪算法的采样模式。两个带 _ancestral 的,可能会带来不一样的效果,ddim 和 plms 的结果差异会很大,其它留给你们自己去实验咯。

共有如下几种可供选择:ddim, plms, k_euler, k_euler_ancestral, k_heun, k_dpm_2, k_dpm_2_ancestral, k_lms

推友 @Erblicken 给出了他的实验结果

Seed:生成每张图片时的随机种子,这个种子是用来作为确定扩散初始状态的基础。所以同样的 prompt + 同样的参数设置 + 同样的种子,每次生成都会得到几乎一模一样的结果图像。如何运用种子,对于当前可玩参数较少的 SD 而言,成了最有意思的部分。

如何使用种子来改进一张作品

@bartman081523 使用同一个种子 14586 生成的一组图片,每张轻微替换了 prompt 中的一两个关键字。实验结果很明显,锁定一个种子后再调整 prompt,可以保持构图、布局大致相同,在细节和色调上带来变化。

prompt: countryside in japan, sunrise, foggy | midday | evening, cloudy | night,trees, mountains, watercolor-wash

胖手AI艺术家和菜头使用同一个种子,每次更换 prompt 中的年龄,得到了一个女人从半岁到 200 岁,各个年龄段的照片,合成的 gif(最后一张 3934… 岁,一个非常大的数字,和菜头表示 “SD 证明了人类有轮回”……)。

@WeirdStableAI 用同一个种子做了 47 次生成,每次更换了 prompt 艺术风格/流派 修饰词,得到了有趣的结果对照。

https://pbs.twimg.com/media/FZrVDVaXEAwnTYG?format=jpg&name=4096x4096 高清原图

所以如果你从一次 prompt 里得到了一个布局、构图和主题都很满意的结果,可以把种子 copy 下来,用于下一次生成。

关闭 Random Seed 随机种子按钮,在输入框里粘贴种子,再根据需要调整 prompt 或参数,这样就能对结果图片进行持续的调整或优化。

经过测试,可以对结果有影响的 prompt 调整,除了替换部分关键字,还包括:更改关键词的排序,修改分隔逗号,改变修饰词(例如,把 by xx艺术家 改为 in the style of 或 art by) 等,都是值得尝试的技巧。

还有一个比较 hack 的技巧,是在你想强调的关键词上加多组小括号,括号越多,对这个关键词的强调越重。不一定对所有 prompt 都有效。下面是我做的一个实验:锁定种子后,使用同一个 prompt :

Close-up side view portrait of Cyborg Geisha, rotobic, Machina, super intricate ornaments artwork, by Tooth Wu and wlop, by Alena Aenami, by Alphonse Mucha, by Brian Froud, by Pablo Amaringo, super detailed, large depth of field

从上到下,图 1~4,我分别给 Geisha (艺妓) 这个关键字添加了 0、2、4、7 组小括号,像这样写:

Close-up side view portrait of Cyborg (((((((Geisha)))))))) , rotobic, Machina, super intricate ornaments artwork ……

明显可见,图4 呈现了更多的人脸,更多更准确的五官细节,而 Cyborg, rotobic, Machina 这些修饰词的比重下降了。

除了小括号之外,你还可以试试对关键词添加多组单引号或双引号。

在使用锁定种子这一技巧时需要注意,种子确定噪音的初始状态,所以对尺寸设置做任何改变后,同一个种子就无法重复了。

如果 SD 运行的版本有所不同,种子也可能失效。

我用 Stable Diffusion 创作的图片著作权如何归属,我可以拿来商用吗?

取决于你运行 Stable Diffusion 时是通过哪种服务:

1,自己部署已经开源的 Stable Diffusion,也就是说用的是自己的 GPU 资源,所生成图片(Output)的著作权,Licensor(Stability.ai)claims no rights。

我理解得没错的话,就是结果图片著作权和如何对外授权都归你自行定义,Stability.ai 不做约束,也不会共享你的著作权和收益。

开源模型的授权协议全文请访问下面链接, 对 Output 的声明在第6章。

https://huggingface.co/spaces/CompVis/stable-diffusion-license

2,使用 dreamstudio 网站、官方 discord bot 或 其它 Stability.ai 直接提供的生成服务, 作品著作权归属就需要注意了。TOS 里明确了,你拥有生成作品的著作权,但同时也强制你将作品以 CC0 1.0 授权给 Stability.ai 和 通用公共领域。

通俗点解释,你可以商用或非商用自己创作的图像,但你的图像只要是通过上述服务生成的,就自动变成了 CC0 1.0 授权。成为通用公共领域 royalty-free 的图片资源。服务提供商 Stability.ai 和该服务上其它用户(包括爬虫)跟你享有同等的,对你作品进行分发、复制、改编、修改 等权益,无需经过你同意,也无需付费,包含商用目的。

这也意味着你使用上述服务生成的图像以后也会进入训练数据集哦

TOS 全文:https://beta.dreamstudio.ai/terms-of-service

  1. 使用其它接入 Stable Diffusion API 的服务,例如 Nightcafe,需要参考对应服务提供商的协议。

Stable Diffusion 背后的研发团队

Stable Diffusion 所属的 Stability.AI 是一家创始于英国伦敦的年轻的人工智能解决方案提供商。公司 slogan 就是 AI by the people, for the people ,显示其愿景中对开放的承诺及开源协作的重视。

其官网简介上也提到 We are unafraid to go against established norms and explore creativity. “在探索创新的道路上并不惧于挑战已有规则”。

在 Stability.AI 官网上列出的他们资助的诸多 AI 研究团队或项目中,有两个跟AI 图像生成领域 密切相关:

**EleutherAI:**去中心化组织的 AI 开源研发团队。虽然他们自称草根,但在大型语言模型 (GPT-NeoX-20B)、机器学习图像生成这两个领域已经是开源团队中的翘楚。

EleutherAI 的核心成员 Katherine Crowson @RiversHaveWings(数据科学家)和 Ryan Murdoch @advadnoun(Adobe的机器学习算法工程师)开始实验一种之前没有人想到过的做法,将两种不同的神经网络模型 CLIP 和 GAN 连接起来。2021年1月,其成果作为 notebook 发布,瞬间引爆了上千的业界转发。这个 notebook 就是 CLIP + VQGAN ,第一个 CLIP guided text-to-image 模型的实现:通过输入一小段 prompt,让深度学习网络为你生成对应的图片。

而后来我们熟知的 Disco Diffusion 就是 CLIP + VQGAN 的下一代进化,CLIP + Diffusion 生成模型。

VQGAN + CLIP 引领了全新一代 AI 图像生成技术的风潮,你会在几乎所有开源 TTI 模型的简介都里看见对 Katherine Crowson 的致谢,她被称之为是这一代模型的奠基者是当之无愧的。

EleutherAI 正计划训练可以比拼当下最大规模的 GPT-3 模型(175B 参数)的语言模型。再加上当前正热的 Stable Diffusion 的成功,EleutherAI 显然是 OpenAI 不可小觑的开源世界挑战者。

LAION 是一个跨全球的非营利 ML 研究机构,今年 3 月开放了当前最大规模的开源跨模态数据库,包含 5.85 Billion 个的 CLIP-filtered 图片-文本对,是它上一个版本 LAION-400M 的十四倍大。可以被用来训练类似 DALL·E、DD、SD 这样的 图像/文本生成模型(image/text generative models),也可以用于训练 CLIP(Contrastive Language-Image Pre-Training model)这样可用于给文本和图像的匹配程度打分的模型,这两者都是现在 AI 图像生成模型的核心部分。

除了提供 5B 这样的海量语料库,LAION 还训练 AI 根据艺术感视觉美感(Aesthetics),给LAION-5B 里图片打分。把高分图片归进了一个叫 LAION-Aesthetics 的子集。

https://github.com/LAION-AI/laion-datasets/blob/main/laion-aesthetic.md

LAION-5B 数据集里搜索 cat 的结果

LAION-Aesthetics 数据集里搜索 cat 的结果

Aesthetics score 从 0~10 一共 10 个分数等级,8 分以上的 800 万张,7 分以上的 1.2 亿张。使用高美感分数的数据集训练出来的 TTI 模型,当然能更大概率生成符合人类审美的结果。这也是为什么相较其它模型,Stable Diffusion 更有艺术感艺术感,对风格和流派的把握更准确,更多样。

Stable Diffusion 是如何训练出来的?

、SD 的基础是 Latent Diffusion 这个生成速度快、对计算资源和内存消耗需求小的扩散模型。再结合已在 DALL·E 2 和 Imagen 取得惊人进展的 conditional diffusion model 相关的论文及实践成果。

其训练模型的核心数据集则是前文介绍过的 LAION-high-resolution 和 LAION-Aesthetics。使用 AWS 提供的 4000 块 A100 显卡组成的强力计算集群,花费约 15 万小时的训练完成了第一个版本。

慕尼黑大学机器学习研究小组(前海德堡大学 CompVis Lab)的 Robin Rombach 领导研发的 使用 Latent Diffsuion 合成高分辨率图像合成的模型架构,视频编辑软件 Runway 开发者 Patrick Esser 一起做的研发,加上 ELeutherAI 团队的 Katherine Crowson、JDP 和 LAION 项目团队在模型训练上的集体努力。Stability.ai 提供计算资源训练模型和产品开发。

  • 具体技术细节请移步

https://huggingface.co/blog/stable_diffusion

  • 训练过程中的 3 个 checkpoint:

https://huggingface.co/CompVis/stable-diffusion-v-1-4-original

  • 论文 《High-Resolution Image Synthesis with Latent Diffusion Models 》

https://arxiv.org/abs/2112.10752

Stable Diffusion 的开源

Stability.ai 动作非常迅速地践行了它们之前所作的开源承诺。8 月 22 日,所有代码、模型和权重参数库已经在 Huggingface 的 Github 上开放:

https://github.com/huggingface/diffusers/releases/tag/v0.2.3

https://huggingface.co/CompVis/stable-diffusion

这也就意味着你可以在自己本地部署并免费运行 Stable Diffusion 啦。

Stability.ai 的发布公告中称 Stability Diffusion 可以部署在 10G 显存的消费级显卡上使用,生成 512*512 尺寸的图片只需要几秒。当下开源模型中推荐 v1.4 470K, 显存消耗约为 6.9 G,对比DD 动辄需要 3090 这一的高端显卡和数十分钟的等待时间,大大降低了当前开源 TTI 模型的使用门槛。

SD 开源模型的授权协议是 Creative ML OpenRAIL-M license,在 非有害目的 的条件下,允许商用和非商用。

你还可以试试 Huggingface 的 Diffuser library (强烈推荐), 将 Stable Diffusion 作为 pipeline 中的模型运行,使用和安装说明的详情参考访问这个 colab notebook :

https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb

huggingface 的 space 上也可以直接体验 SD demo:

https://huggingface.co/spaces/stabilityai/stable-diffusion

Stable Diffusion API

  • A reference Python client that can be installed via pip using pip3 install stability-sdk

https://github.com/Stability-AI/stability-sdk

  • A ipynb notebook that shows how to use it from ipython or Collab

https://github.com/Stability-AI/stability-sdk/blob/main/nbs/demo_colab.ipynb

  • A .proto file that can be used to generate gRPC (https://grpc.io/) stubs for your favorite language! We have internally used this to generate stubs for Python, Golang, and TypeScript/JavaScript

https://github.com/Stability-AI/stability-sdk/blob/main/src/proto/generation.proto

Stable Diffusion 未来有哪些可期待的亮点

**功能上,**根据各渠道泄露的消息 和 当下AI图像生成常见 pipeline 的实现可行性,大家都非常期待的 init image 和 mask 功能,应该很快就会支持。

**Init Image:**基于一张你上传的底图,配合 prompt 生成底图的变体,或对底图进行风格或材质的渲染,还可以精确控制 底图 和 text prompt 两者的对生成结果的影响比重。

Mask: 在 DALL·E 也被称为 inpaint 或 outpaint。

在原始图片上你想修改的地方标记出 mask 蒙版(比如用笔刷涂抹,或橡皮擦除), 配合prompt,AI 可以在蒙版标记区域补上新的内容,或重新生成局部完成对原图的修补,这就是 inpaint。

例如,左图由 SD 生成,我用蒙版遮盖了不太完美的右眼和牙齿的右边部分,再重新生成,得到修补结果如右图。只是目前右图现在是转移到 DALL·E 里实现的。

蒙版的标记可以是在画面内(inpaint),也可以是画面外(outpaint)。

左图是 SD 生成的原图,将原图放在一张较大的空白画布中,再补充上 prompt (添加了修饰词 with blue sea wave and golden fish background)再次生成,就完成了右图,等于把图像外接了一圈。这种功能可以用于修补不完美的构图,或从一个很小的画面通过多次生成,构建出一个很大的场景。

**模型的更新方面,**Stability.ai 承诺会在接下来的一段时间里,将发布当前 v1.4 模型的优化版本以及其他变体和架构,以提高性能和质量。甚至有望支持其在 AMD、Macbook M1/M2 和其他芯片组上运行。目前还是只推荐使用 NVIDIA 芯片。

接口和应用: AI 图像生成应用中的前辈 NightCafe.studio 刚刚已经接入了 Stable Diffuion ,用户可以在 DD、SD、VQGAN 和 风格迁移 这几大类模型中四选一。

基于已经 Stability.ai 已经开放的 API,相信你很快可以在大部分 AI 图像生成应用或 APP 里都用上 SD。

专精于 AI 人脸生成的应用 Artbreeder 刚刚发布了 跟 Stable Diffusion 合作的应用 collage.artbreeder.com

这个应用很有意思,你可以在空白画布上画一些形状,用纯色或噪点填充,或添加一些现成的元素(比如上图中的月亮),然后 写好 prompt 引导 AI 生成,下面那个 AI 的滑条可以设置画布上底图对结果的影响比重。然后生成……

一看就明白,这个应用基本就是我前文说过的 init image 功能啦。只是这个底图是在网页上画出来的。

此外,Stability.ai 在发布 SDK 的时候也承诺会尽快发布支持多语言的模型,还有使用 Golang 开发的高性能 Discord bot,也是开源的哦。这也就意味着你可以在自己建的 discord group 里接入 SD 生成 bot,当然,如果像使用 SAAS 服务那样,直接使用它家的 API,需要按次支付成本哦。

我们也有理由展望,未来会有越来越多的 IM、SNS 或游戏中接入 SD 或类似 SD 这样快速易用的 AI 图像生成模型。

而图像生成的下一步就是 视频、可交互动视、虚拟实境 和 3D。

想象一下,在 游戏 或 元宇宙 开发里,用语音说出几个修饰词,就能即时生成真正独一无二的装备、道具、服装、建筑,随意根据自己的想象去设计 场景、NPC 和 敌人。就连对白,也可以用 GPT 生成的。

在生产力工具方面,图像、视频、动画、3D 编辑创作工具中,应该也会很快看见更多同 AI 图像生成模型的结合,比如辅助构建概念草图、修补图像,创建贴图或关键帧。

对于 2022 年的人工智能领域,图像生成模型 text-to-image generator 无疑已成为最大的主角。从 3 月 Disco Diffusion 的火爆出圈,4 月 DALL·E 2Midjourney 开始邀请制内测,5 月和 6 月 Google 发布了两大 TTI 模型 ImagenParti(仅论文,无内测)。7 月底,Stable Diffusion 的内测和开源又占尽了风头。TTI 这个领域的变化之快,是以天而计的。

2022 年还剩 1/3,不知道还有多少惊喜等待着我们。

当然所有新技术都是双刃的,会赋予一部分人新的力量,也会打翻一部分人盘子里的蛋糕。下一篇我会写写 AI 图像生成当下面临的最大争议:”AI 艺术家” 们是不是在窃取其它艺术家的劳动成果?


附录:一些有用的资源

Stable Diffusion prompt 搜索引擎 —— 抓取了大量 SD 的 prompt 对应的生成结果。对于不知道该怎么写 prompt 的新手是很好的参考。

https://lexica.art/

用 Stable Diffusion 生成的艺术家风格参考库

https://proximacentaurib.notion.site/e2537cbf42c34b7e9a9a4126f81dfd0d?v=7b4a3c03fb654045be324eb71acc57e6

CLIP Ranked Artists —— ProgRockDiffusion 的开发者 Jason Hough @LowFuel 的项目,列出了各艺术家在 CLIP 各模型里的的感应度评分,以及相似艺术家。

https://f000.backblazeb2.com/file/clip-artists/index.html#by_jim_burns

Prompt 构建器 —— 写 prompt 词汇量不够?想不出来更具体地描述一个对象?这个应用把多个维度的修饰词做成了一个个带 demo 效果图的可点按钮,只需点点点,就能自如组合出一个花样繁多的 prompt 了,非常直观。


这里分享给大家一份Adobe大神整理的《AIGC全家桶学习笔记》,相信大家会对AIGC有着更深入、更系统的理解。

有需要的朋友,可以点击下方免费领取!

在这里插入图片描述

AIGC所有方向的学习路线思维导图

这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。如果下面这个学习路线能帮助大家将AI利用到自身工作上去,那么我的使命也就完成了:
在这里插入图片描述

AIGC工具库

AIGC工具库是一个利用人工智能技术来生成应用程序的代码和内容的工具集合,通过使用AIGC工具库,能更加快速,准确的辅助我们学习AIGC
在这里插入图片描述

有需要的朋友,可以点击下方卡片免费领取!

在这里插入图片描述

精品AIGC学习书籍手册

书籍阅读永不过时,阅读AIGC经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验,结合自身案例融会贯通。

在这里插入图片描述

AI绘画视频合集

我们在学习的时候,往往书籍源码难以理解,阅读困难,这时候视频教程教程是就很适合了,生动形象加上案例实战,科学有趣才能更方便的学习下去。

在这里插入图片描述

相关文章:

当下最强的 AI art 生成模型 Stable Diffusion 最全面介绍

目录 模型生成效果展示(prompt 全公开) 如何注册 Stable Diffusion 使用 SD(dreamstudio.ai )的收费标注如何 SD 提供哪些参数可以设置 如何使用种子来改进一张作品 我用 SD 创作的图片著作权如何归属,可以拿来商…...

NPM 使用教程:从入门到精通

NPM 使用教程:从入门到精通 1. 引言 什么是 NPM? NPM (Node Package Manager) 是 JavaScript 的包管理工具,也是世界上最大的开源库生态系统。它帮助开发者轻松地管理项目的依赖、安装和分享包。NPM 与 Node.js 紧密结合,并在开…...

基于ssm+vue+uniapp的停车场小程序的设计与实现

开发语言:Java框架:ssmuniappJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:M…...

C语言典型例题37

《C程序设计教程(第四版)——谭浩强》 例题3.5 按照按照考试成绩的等级输出百分制分数段,A等为85分以上,B等为70~84分,C等为 60~69分,D等在60分以下,成绩的等级从键盘输入 代码: //…...

二自由度机械臂软件系统(三)ros2_control硬件底层插件

ros2_control实现了两个功能,一个是控制算法插件即控制的实现,另一个是底层插件即跟硬件通信的功能。 参考资料:https://zhuanlan.zhihu.com/p/682574842 1、创建功能包 ros2 pkg create --build-type ament_cmake robot_control_test在sr…...

24.8.9.11数据结构|链栈和队列

链栈 1、理解 实际上是一个仅在表头进行操作的单链表,头指针指向栈顶结点或头结点,以下恋栈均指带头结点的链栈. 2、 基本操作 1、定义结构:节点含有数据域和指针域 2、初始化操作:建立一个带头结点的空栈 3、取栈顶元素操作:取出栈的栈顶元…...

StarSpider:一款高效的网络爬虫框架解析与实战

文章目录 引言官网链接StarSpider 原理简介基础使用1. 添加依赖2. 编写PageProcessor3. 启动爬虫 高级使用1. 分布式抓取2. 自定义下载器3. 深度定制 优点结语 引言 在大数据时代,数据成为了推动业务增长和创新的关键。网络爬虫作为数据获取的重要手段之一&#xf…...

LVS详细解析及其NAT模式与DR模式部署(理论+实验全方位指导)

目录 1. 集群 2. 分布式系统 3. 集群与分布式的比较 4.通俗的解释 集群 分布式系统 总结 LVS(Linux Virtual Server)简介 LVS专业术语 工作原理 LVS调度算法 静态调度算法 动态调度算法 ipvsadm脑图 NAT模式集群 LVS的配置 在LVS主机内打开…...

负载均衡相关概念介绍(一)

负载均衡(Load Balance)是集群技术的一种重要应用,旨在将负载(工作任务)进行平衡、分摊到多个操作单元上进行运行,从而提高系统的并发处理能力、增加吞吐量、加强网络处理能力,并提供故障转移以…...

二叉树详解(1)

文章目录 目录1. 树的概念及结构1.1 树的相关概念1.2 树的表示1.3 树在实际中的运用(表示文件系统的目录树结构) 2. 二叉树的概念及结构2.1 概念2.2 特殊的二叉树2.3 二叉树的存储结构 3. 二叉树的顺序结构及实现3.1 二叉树的顺序结构3.2 堆的概念及结构…...

Spring定时任务注解

Service EnableScheduling public class xxxServiceImpl implement xxxService{Scheduled(cron "0 15 11 * * ?") // 每天的11:15执行public void reportCurrentTime() {aaa();}Scheduled(cron "0 15 17 * * ?") // 每天的17:15执行public void report…...

数据结构-绪论

学习目标: 认识数据结构的基本内容 学习内容: 了解:数据结构的研究内容掌握:数据结构的基本概念和术语了解:数据元素间的结构关系掌握:算法及算法的描述 数据结构的发展: 数据结构的发展简史 …...

Web开发:web服务器-Nginx的基础介绍(含AI文稿)

目录 一、Nginx的功能: 二、正向代理和反向代理的区别 三、Nginx负载均衡的主要功能 四、nginx安装目录下的各个文件(夹)的作用: 五、常用命令 一、Nginx的功能: 1.反向代理:例如我有三台服务器&#x…...

共享经济背景下校园、办公闲置物品交易平台-计算机毕设Java|springboot实战项目

🍊作者:计算机毕设残哥 🍊简介:毕业后就一直专业从事计算机软件程序开发,至今也有8年工作经验。擅长Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等。 擅长:按照需求定制化开发项目、 源…...

Linux 服务器上简单配置 minio

Linux 服务器上简单配置 minio 初始化结构目录 mkdir -p /data/minio/bin mkdir -p /data/minio/conf mkdir -p /data/minio/data 下载 minio cd /data/minio/bin curl -O https://dl.min.io/server/minio/release/linux-amd64/minio 添加执行权限 chmod x minio 创建配置文件…...

TypeScript 面试题汇总

引言 TypeScript 是一种由微软开发的开源、跨平台的编程语言,它是 JavaScript 的超集,为 JavaScript 添加了静态类型系统和其他高级功能。随着 TypeScript 在前端开发领域的广泛应用,掌握 TypeScript 已经成为很多开发者必备的技能之一。本文…...

杰卡德系数

杰卡德系数(Jaccard Index 或 Jaccard Similarity Coefficient) 杰卡德系数是一种用于衡量两个集合相似度的重要指标。 从数学定义上来看,如前面所述,杰卡德系数计算公式为: J ( A , B ) ∣ A ∩ B ∣ ∣ A ∪ B ∣…...

微服务实现-sleuth+zipkin分布式链路追踪和nacos配置中心

1. sleuthzipkin分布式链路追踪 在大型系统的微服务化构建中,一个系统被拆分成了许多微服务。这些模块负责不同的功能,组合成系统,最终可以提供丰富的功能。 这种架构中,一次请求往往需要涉及到多个服务。互联网应用构建在不同的软…...

数学中常用的解题方法

文章目录 待定系数法应用示例1. 多项式除法2. 分式化简3. 数列通项公式 总结 递归数列特征方程特征根的求解通项公式的求解示例 错位相减,差分错位相减法差分的应用结合理解 韦达定理二项式定理二项式定理的通项公式二项式系数的性质应用示例 一元二次求解1. 因式分…...

pytorch 1 张量

张量 文章目录 张量torch.Tensor 的 主要属性torch.Tensor 的 其他常用属性和方法叶子张量(Leaf Tensors)定义叶子张量的约定深入理解示例代码总结 中间计算结果与 detach() 方法定义中间计算结果不是叶子节点使用 detach() 方法使中间结果成为叶子张量示…...

音视频开发继续学习

RGA模块 RGA模块定义 RGA模块是RV1126用于2D图像的裁剪、缩放、旋转、镜像、图片叠加等格式转换的模块。比方说:要把一个原分辨率1920 * 1080的视频压缩成1280 * 720的视频,此时就要用到RGA模块了。 RGA模块结构体定义 RGA区域属性结构体 imgType&am…...

【Datawhale X 魔搭 】AI夏令营第四期大模型方向,Task1:智能编程助手(持续更新)

在一个数据驱动的世界里,人工智能的未来应由每一个愿意学习和探索的人共同塑造和掌握。希望这里是你实现AI梦想的起点。 大模型小白入门:https://linklearner.com/activity/14/11/25 大模型开发工程师能力测试:https://linklearner.com/activ…...

如何判断监控设备是否支持语音对讲

目录 一、大华摄像机 二、海康摄像机 三、宇视摄像机 一、大华摄像机 注意:大华摄像机支持跨网语音对讲,即设备和服务器可以不在同一网络内,大华设备的语音通道填写:34020000001370000001 配置接入示例: 音频输入…...

Grafana+Influxdb(Prometheus)+Apache Jmeter搭建可视化性能测试监控平台

此性能测试监控平台,架构可以是: GrafanaInfluxdbJmeterGrafanaPrometheusJmeter Influxdb和Prometheus在这里都是时序性数据库 在测试环境中,压测数据对存储和持久化的要求不高,所以这里的组件可以都通过docker-compose.yml文件…...

【笔记】MSPM0G3507移植RT-Thread——MSPM0G3507与RT_Thread(二)

一.创建新工程 找到"driverlib\empty"空白工程,CTRLC然后CTRLV复制副本 重命名为G3507_RTT 打开KEIL工程 双击empty.syscfg,然后打开SYSCONFIG 我的不知道为啥没有48pin选项,如果你也一样,可以跟着我做,如果…...

计算机毕业设计 美发管理系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点…...

soapui调用接口参数传递嵌套xml,多层CDATA表达形式验证

1.环境信息 开发工具:idea 接口测试工具:soapui 编程语言:java 项目环境:jdk1.8 webservice:jdk自带的jws 处理xml:jdk自带的jaxb 2.涉及代码 package org.example.webdemo;import javax.jws.WebMethod; i…...

GB/T35561-2017d,GB/T38565-2020,ocr解析文本

因系统需要只找到pdf版本,解析一版记录 GB/T35561-2017d 10000 , 自然灾害 10100 , 水旱灾害 10101 , 洪水 10102 , 内涝 10103 , 水库重大险情 10104 , 堤防重大险情 10105 , 凌汛 10106 , 山洪 10107 , 农业干旱 10108 , 城镇缺水 10109 , 生态干旱 10110 , 农村…...

IDEA使用LiveTemplate快速生成方法注释

本文目标:开发人员,在了解利用Live Template动态获取方法输入输出参数、创建日期时间方法的条件下,进行自动生成方法注释,达到自动添加方法注释的程度; 文章目录 1 场景2 要点2.1 新增LiveTemplate模版2.2 模版内容填写…...

慢SQL优化

1、避免使用select * select * 不会走覆盖索引,会出现大量的回表操作,从而导致查询sql的性能很低。 --反例 select * from user where id 1;--正例 select name,age from user where id 1;2、union all 代替 union union:去重后的数据…...

俄乌今天最新军事动态/武汉百度seo网站优化

实现效果(通过代码的方式实现TableCell 的创建) 实现过程: 实现过程两个部分 1 数据源的准备 本例子采用NSDictionary +NSArray 为数据源 (接口部分) (数据初始化部分) 2 代码创建T…...

网站建设第二年费用/网上哪里接app推广单

又到3dmax插件神器的小课堂时间了!小伙伴们还记得之前几张的知识点吗?如果不记得自己去温习,温故而知新哦!如果学会了,下面学习3dmax插件神器小技巧的第四章建模篇的第4.16小节:怎么用3dmax插件神器去完成背…...

有域名了怎么做网站/百度信息流推广技巧

目录一、RequestMapping1.作用范围:2.属性二、请求参数的绑定三、请求参数乱码问题四、自定义类型转换器1.定义一个转换类实现Converter接口2.在springmvc的配置文件中配置类型转换器3.在springmvc配置文件中引用配置的类型转换五、使用Servlet原生API六、一些常用注…...

宁波网站怎么建设/搜索引擎收录查询工具

大家好,我是小鸭酱,博客地址为:http://www.cnblogs.com/xiaoyajiang pyAudioAnalysis是一个音频分析python库,用于Feature Extraction, Classification, Segmentation 和Applications,其github见 https://github.com/t…...

青海建设厅通报网站/seo提升关键词排名

作者简介李剑,携程系统研发部技术专家,负责Redis和Mongodb的容器化和服务化工作,喜欢深入分析系统疑难杂症。前言随着携程的应用大规模在生产上用容器部署,各种上规模的问题都慢慢浮现,其中比较难定位和解决的就是偶发…...

扁平化配色方案网站/在线域名查询网站

给定一个字符串s,将s分割成一些子串,使每个子串都是回文串。 返回s所有可能的回文串分割方案。 样例 给出 s "aab",返回 [ [“aa”, “b”], [“a”, “a”, “b”] ] 分析:采用深度优先搜索即可,这种回文串…...