当前位置: 首页 > news >正文

【diffusers极速入门(三)】生成的图像尺寸与 UNet 和 VAE 之间的关系

先上结论,一句话总结即: SD 图片的输入\输出尺寸(高或宽) = Unet 输入\输出的样本尺寸(高或宽) x VAE 的缩放尺寸

在使用生成模型时,特别是图像生成任务中,理解 UNet 和 VAE(变分自编码器)之间的关系是非常重要的。本文将详细介绍 UNet 和 VAE 的工作原理,并解释它们如何协同工作来生成高质量的图像。我们将以 diffusers 库为例,展示生成图像尺寸与 UNet 和 VAE 之间的关系。

什么是 UNet?

UNet 是一种卷积神经网络架构,最初设计用于生物医学图像分割。其结构类似于一个对称的 U 字形,由编码器(下采样)和解码器(上采样)组成。编码器逐步提取图像特征并缩小空间维度,解码器则将这些特征还原到原始的空间维度,同时逐步增加分辨率。

UNet 的关键特性:

  1. 对称结构:编码器和解码器对称分布。
  2. 跳跃连接:直接将编码器的中间层输出传递到解码器的对应层,保留了高分辨率特征。
  3. 多尺度特征提取:在不同尺度上提取特征,提升了网络对细节的捕捉能力。
    在这里插入图片描述

什么是 VAE(Variational AutoEncoder)?

VAE 变分自编码器是一种生成模型,通过学习输入数据的潜在表示来生成新数据。VAE 由编码器和解码器组成:

  1. 编码器:将输入图像转换为潜在空间的分布(均值和方差),下图中的 m 和 sigma。
  2. 解码器:从潜在空间的采样生成新图像。

VAE 的关键特性:

  1. 概率模型:VAE 学习输入数据的概率分布,从而生成多样化的样本。
  2. 连续潜在空间:潜在空间中的小变化会导致生成图像的小变化,具有很好的连续性。
    在这里插入图片描述

图像尺寸与 UNet 和 VAE 的关系

在图像生成任务中,输入图像的尺寸需要匹配 UNet 和 VAE 的预期输入输出尺寸。diffusers 库中的 MimicBrushPipeline 通过以下代码设置默认的图像尺寸:

height = height or self.unet.config.sample_size * self.vae_scale_factor
width = width or self.unet.config.sample_size * self.vae_scale_factor

下面详细解释为什么使用这种方式来设置默认的图像尺寸。

设置默认图像尺寸

  1. UNet 的输入尺寸要求:UNet 处理图像时,输入图像的最小尺寸需要符合其配置要求。self.unet.config.sample_size 提供了这个最小尺寸的基准值,例如 64。

  2. VAE 的缩放需求:VAE 在编码和解码过程中会对图像进行缩放处理。为了确保图像在经过多次缩放后仍能被 VAE 正确处理,需要考虑 self.vae_scale_factor,例如 8。

通过相乘,我们得到一个符合两者需求的图像尺寸:

height = 64 * 8 = 512
width = 64 * 8 = 512

这意味着默认的输入图像尺寸将是 512x512。这样的设置确保了图像在经过 VAE 的缩放处理后,仍能满足 UNet 的最小输入尺寸要求,且两者在处理过程中尺寸是对齐的。

总结

  • 理解 UNet 和 VAE 之间的关系以及它们在图像生成任务中的角色,对于高效使用 diffusers 库生成高质量图像至关重要。
  • 通过合理设置图像尺寸,我们可以确保生成过程中的每个阶段都能顺利进行,最终生成出符合预期的图像。
  • 希望本文对你理解和应用 UNet 和 VAE 以及 diffusers 库有所帮助。

相关官方文档:常用的 Unet👉 UNet2D 和 VAE 👉 AutoencoderKL

相关文章:

【diffusers极速入门(三)】生成的图像尺寸与 UNet 和 VAE 之间的关系

先上结论,一句话总结即: SD 图片的输入\输出尺寸(高或宽) Unet 输入\输出的样本尺寸(高或宽) x VAE 的缩放尺寸 在使用生成模型时,特别是图像生成任务中,理解 UNet 和 VAE&#xf…...

react实现窗口悬浮框,可拖拽、折叠、滚动

1、效果如下 2、如下两个文件不需要修改 drag.js import React from "react"; import PropTypes from "prop-types";export default class DragM extends React.Component {static propTypes {children: PropTypes.element.isRequired};static defaultP…...

52【场景作图】空间感

参考 场景绘制,画面空间感如何拉开?分分钟就能学会的场景优化思路更新啦!_哔哩哔哩_bilibili https://www.bilibili.com/video/BV1pa411J7Ps/?spm_id_from333.337.search-card.all.click&vd_source20db0c4e2d303527ed13c4b9cdf698ec 1 …...

SpringBoot系列之搭建WebSocket应用

SpringBoot系列之ServerEndpoint方式开发WebSocket应用。在实时的数据推送方面,经常会使用WebSocket或者MQTT来实现,WebSocket是一种不错的方案,只需要建立连接,服务端和客户端就可以进行双向的数据通信。很多网站的客户聊天&…...

RK3568技术笔记十四 Ubuntu创建共享文件夹

单击“虚拟机”,单击“设置”,如图所示: 单击“选项”,选择“总是启用(E)”,单击“添加”,如图所示: 单击“下一步”,如图所示: 单击“浏览”添加…...

JavaScript 获取地理位置 Geolocation

在现代的 web 应用程序中,获取用户的地理位置信息是一项常见的需求。这可以用于提供个性化内容、本地化服务或者基于位置的功能。HTML5 引入了 Geolocation API,使得从浏览器中获取地理位置信息变得非常简单。 1. Geolocation API 简介 Geolocation AP…...

android串口助手apk下载 源码 演示 支持android 4-14及以上

android串口助手apk下载 1、自动获取串口列表 2、打开串口就开始接收 3、收发 字符或16进制 4、默认发送at\r\n 5、android串口助手apk 支持android 4-14 (Google seral port 太老) 源码找我 需要 用adb root 再setenforce 0进入SELinux 模式 才有权限…...

windows11 生产力工具配置

一、系统安装 官方windows11.iso镜像文件安装操作系统时,会强制要求联网验证,否则无法继续安装操作系统,跳过联网登录账号的方式为:按下【shiftF10】快捷键,调出cmd命令窗口,输入命令 OOBE\BYPASSNRO 等…...

Nacos配置中心不可用会有什么影响

服务端: Nacos的数据存储接口 com.alibaba.nacos.config.server.service.DataSourceService 有两种实现: 如果指定了mysq 作为数据库,则必须使用 mysql 如果是 集群方式部署Nacos,则必须使用mysql 如果是单例方式部署 并且 没…...

AI时代下的自动化代码审计工具

代码审计工具分享 吉祥学安全知识星球🔗除了包含技术干货:Java代码审计、web安全、应急响应等,还包含了安全中常见的售前护网案例、售前方案、ppt等,同时也有面向学生的网络安全面试、护网面试等。 这两年一直都在提“安全左移”&…...

不懂索引,简历上都不敢写自己熟悉SQL优化

大家好,我是考哥。 今天给大家带来MySQL索引相关核心知识。对MySQL索引的理解甚至比你掌握SQL优化还重要,索引是优化SQL的前提和基础,我们一步步来先打好地基。 当MySQL表数据量不大时,缺少索引对查询性能的影响不会太大&#x…...

C# 设置PDF表单不可编辑、或提取PDF表单数据

PDF表单是PDF中的可编辑区域,允许用户填写指定信息。当表单填写完成后,有时候我们可能需要将其设置为不可编辑,以保护表单内容的完整性和可靠性。或者需要从PDF表单中提取数据以便后续处理或分析。 之前文章详细介绍过如何使用免费Spire.PDF…...

面试篇-求两个有序数组的交集

题目 两个有序数组,第一个有序数组m是1000w个元素,第二个有序数组n是1000个元素,求交集,需要考虑时间复杂度和空间复杂度。 解题思路 解法1:遍历小数组n,在m数组中进行折半查找,根据数组有序…...

Web爬虫-edu_SRC-目标列表爬取

免责声明:本文仅做技术交流与学习... 爬取后,结合暗黑搜索引擎等等进行进一步搜索. edu_src.py import requests, time from bs4 import BeautifulSoup for i in range(1, 20):url fhttps://src.sjtu.edu.cn/rank/firm/0/?page{i}print(f"正在获取第{i}页数据")s …...

云原生周刊:Harbor v2.11 版本发布 | 2024.6.17

开源项目推荐 Descheduler Descheduler 是一个工具,可用于优化 Kubernetes 集群中 Pod 的部署位置。它可以找到可以移动的 Pod,并将其驱逐,让默认调度器将它们重新调度到更合适的节点上。 Prowler Prowler 是一款适用于 AWS、Azure、GCP …...

低版本火狐浏览器报错:class is a reserved identifier

低版本火狐浏览器报错:class is a reserved identifier 原因:react-dnd,dnd-core 等node包的相关依赖有过更新,使得在低版本火狐浏览器中不支持 class 解决方法:在使用webpack打包构建时,编译排除node_modu…...

掌握高等数学、线性代数、概率论所需数学知识及标题建议

在数学的广袤领域中,高等数学、线性代数和概率论作为三大核心分支,不仅在理论研究中占据重要地位,更在实际应用中发挥着举足轻重的作用。为了深入理解和掌握这三门学科,我们需要掌握一系列扎实的数学知识。 高等数学所需数学知识 …...

value_and_grad

value_and_grad 是 JAX 提供的一个便捷函数,它同时计算函数的值和其梯度。这在优化过程中非常有用,因为在一次函数调用中可以同时获得损失值和相应的梯度。 以下是对 value_and_grad(loss, argnums0, has_auxFalse)(params, data, u, tol) 的详细解释&a…...

AI 已经在污染互联网了。。赛博喂屎成为现实

大家好,我是程序员鱼皮。这两年 AI 发展势头迅猛,更好的性能、更低的成本、更优的效果,让 AI 这一曾经高高在上的技术也走入大众的视野,能够被我们大多数普通人轻松使用,无需理解复杂的技术和原理。 其中,…...

Linux系统安装ODBC驱动,统信服务器E版安装psqlodbc方法

应用场景 硬件/整机信息:AMD平台 OS版本信息:服务器e版 软件信息:psqlodbc 12.02版本 功能介绍 部分用户在使用etl工具连接数据库时,需要使用到odbc驱动,下面介绍下服务器e版系统中编译安装此工具的相关过程。 E…...

品牌对电商平台价格的监测流程

在当今的电商时代,品牌商会重点关注众多电商平台,如淘宝、天猫、京东、拼多多、苏宁、小红书、抖音、快手等。之所以这些平台备受瞩目,很大程度上是因为其上的店铺数量众多,情况复杂。如今,无论是品牌的经销商还是非经…...

osgearth提示“simple.earth: file not handled”

在用vcpkg编译完osg和osgearth后,为了验证osgearth编译是否正确,进行测试,模型加载代码如下: root->addChild(osgDB::readNodeFile("simple.earth")); 此时以为是simple.earth路径的问题,遂改为以下代码…...

hbuilderx如何打包ios app,如何生成证书

hbuilderx可以打包ios app, 但是打包的时候,却需要两个证书文件,我们又如何生成这两个证书文件呢? 点击hbuilderx的官网链接,教程是需要使用mac电脑苹果开发者账号去创建这两个文件,可是问题来了,我们没有…...

扩散模型荣获CVPR2024最佳论文奖,最新成果让评估和改进生成模型更加效率!

CVPR 2024最佳论文奖新鲜出炉 其中一篇是Rich Human Feedback for Text-to-Image Generation,受大模型中的RLHF技术启发,团队用人类反馈来改进Stable Diffusion等文生图模型。 作者提出了收集丰富的细粒度人类反馈信息,用于更好地评估和改进…...

通过CSS样式来禁用href

<style>.disabled-link {pointer-events: none;cursor: default;text-decoration: none;color: inherit; }</style><a href"https://www.example.com" class"disabled-link">禁用链接</a> 在上述CSS样式中&#xff0c; pointer-…...

汽车传动系统为汽车动力总成重要组成部分 我国市场参与者数量不断增长

汽车传动系统为汽车动力总成重要组成部分 我国市场参与者数量不断增长 汽车系统主要包括动力系统、制动系统、传动系统、转向系统、行驶系统、燃油供给系统、照明系统以及电器系统。汽车传动系统指能够将发动机产生的动力转化为车辆行驶驱动力的动力传递装置。汽车传动系统为汽…...

智慧校园软件解决方案:提升学校管理效率的最佳选择

在当今教育领域&#xff0c;智慧校园信息化方案正逐渐成为提升学校管理水平与教学品质的关键途径。这一方案融合了最新科技&#xff0c;通过数字化、网络化及智能化方式&#xff0c;全面革新教育资源分配与教育互动模式&#xff0c;旨在为学校带来以下核心价值与优势 1. 综合信…...

数据结构之B数

目录 1.概述 2.特点 3.诞生 4.优缺点 4.1.优点 4.2.缺点 5.应用场景 6.C语言中的B树实现例子 7.总结 1.概述 B树&#xff08;B-tree&#xff09;是一种自平衡的树数据结构&#xff0c;广泛应用于数据库和文件系统中&#xff0c;以便高效地进行顺序读取、写入以及查找…...

计算机基础必须知道的76个常识!沈阳计算机软件培训

01 信息技术是指人们获取、存储、传递、处理、开发和利用信息资源的相关技术。 02 1、计算机的特点&#xff1a; &#xff08;1&#xff09;运算速度快 &#xff08;2&#xff09;存储容量大 &#xff08;3&#xff09;通用性强 &#xff08;4&#xff09;工作自动化 &…...

7,KQM模块的驱动

1&#xff0c;查资料&#xff0c;查模块的通信接口&#xff08;单片机和模块之间采用什么方式通信&#xff09;硬件接口&#xff0c;驱动方式(串口驱动用串口发送接收PC10&#xff0c;PC11) 只用了三个脚&#xff1a;VCC &#xff27;&#xff2e;&#xff24; &#xff34;&…...

婚恋网站模板/云南新闻最新消息今天

html - 水平div中的中心图像这个问题在这里已有答案&#xff1a;使用文本对齐中心的中心图像&#xff1f; 23个答案我有一个img在一个div(class"top_image")&#xff0c;我希望这个图像正好在div的中间&#xff0c;但我没有尝试…...

多余菜单删掉wordpress/北京百度网讯人工客服电话

前段时间&#xff0c;有网友拿麒麟9000拷机&#xff0c;于是有了功耗翻车的说法。今天我们就来讨论一下&#xff0c;麒麟9000功耗真的翻车了吗&#xff1f;用拷机功耗来定义麒麟9000的能效表现是否科学&#xff1f;首先要明确的是&#xff0c;性能提升和功耗的增加并不是线性关…...

邵阳企业网站建设/北京推广平台

Math.floor() 返回小于或等于一个给定数字的最大整数。 Note: Math.floor() 向下取整 语法节 Math.floor(x) 参数节 x 一个数字。 返回值 节 一个表示小于或等于指定数字的最大整数的数字。 描述节 由于 floor 是 Math 的一个静态方法&#xff0c;你总是应该像这样…...

网站项目流程表/seo对网络推广的作用是

01 计算机视觉介绍计算机视觉的主要目标是教会计算机如何去获取图片信息中的知识&#xff0c;例如人脸识别就是让计算机去自动获取与识别人脸图像中的知识&#xff0c;这个“知识”的范畴可以是“两张图片中的人脸是否来自于同一个人”&#xff0c;也可以是“图片中的人脸是男人…...

江西建设网官方网站/搜狗搜索旧版本

Guava是Google开源的一个工具包,其中的RateLimiter是实现了令牌桶算法的一个限流工具类。 定义注解 @Documented @Target(ElementType.METHOD) @Retention(RetentionPolicy.RUNTIME) public @interface RateLimit {// 默认每秒生成的令牌个数double DEFAULT_PERMITSPERSECOND…...

制定一网站建设的市场定位的方案/百度搜索资源平台

Struts1和Struts2的区别和对比:Action 类: • Struts1要求Action类继承一个抽象基类。Struts1的一个普遍问题是使用抽象类编程而不是接口。 • Struts 2 Action类可以实现一个Action接口&#xff0c;也可实现其他接口&#xff0c;使可选和定制的服务成为可能。Struts2提供一个A…...