【diffusers极速入门(三)】生成的图像尺寸与 UNet 和 VAE 之间的关系
先上结论,一句话总结即: SD 图片的输入\输出尺寸(高或宽) = Unet 输入\输出的样本尺寸(高或宽) x VAE 的缩放尺寸
在使用生成模型时,特别是图像生成任务中,理解 UNet 和 VAE(变分自编码器)之间的关系是非常重要的。本文将详细介绍 UNet 和 VAE 的工作原理,并解释它们如何协同工作来生成高质量的图像。我们将以 diffusers 库为例,展示生成图像尺寸与 UNet 和 VAE 之间的关系。
什么是 UNet?
UNet 是一种卷积神经网络架构,最初设计用于生物医学图像分割。其结构类似于一个对称的 U 字形,由编码器(下采样)和解码器(上采样)组成。编码器逐步提取图像特征并缩小空间维度,解码器则将这些特征还原到原始的空间维度,同时逐步增加分辨率。
UNet 的关键特性:
- 对称结构:编码器和解码器对称分布。
- 跳跃连接:直接将编码器的中间层输出传递到解码器的对应层,保留了高分辨率特征。
- 多尺度特征提取:在不同尺度上提取特征,提升了网络对细节的捕捉能力。

什么是 VAE(Variational AutoEncoder)?
VAE 变分自编码器是一种生成模型,通过学习输入数据的潜在表示来生成新数据。VAE 由编码器和解码器组成:
- 编码器:将输入图像转换为潜在空间的分布(
均值和方差),下图中的 m 和 sigma。 - 解码器:从潜在空间的采样生成新图像。
VAE 的关键特性:
- 概率模型:VAE 学习输入数据的概率分布,从而生成多样化的样本。
- 连续潜在空间:潜在空间中的小变化会导致生成图像的小变化,具有很好的连续性。

图像尺寸与 UNet 和 VAE 的关系
在图像生成任务中,输入图像的尺寸需要匹配 UNet 和 VAE 的预期输入输出尺寸。diffusers 库中的 MimicBrushPipeline 通过以下代码设置默认的图像尺寸:
height = height or self.unet.config.sample_size * self.vae_scale_factor
width = width or self.unet.config.sample_size * self.vae_scale_factor
下面详细解释为什么使用这种方式来设置默认的图像尺寸。
设置默认图像尺寸
-
UNet 的输入尺寸要求:UNet 处理图像时,输入图像的最小尺寸需要符合其配置要求。
self.unet.config.sample_size提供了这个最小尺寸的基准值,例如 64。 -
VAE 的缩放需求:VAE 在编码和解码过程中会对图像进行缩放处理。为了确保图像在经过多次缩放后仍能被 VAE 正确处理,需要考虑
self.vae_scale_factor,例如 8。
通过相乘,我们得到一个符合两者需求的图像尺寸:
height = 64 * 8 = 512
width = 64 * 8 = 512
这意味着默认的输入图像尺寸将是 512x512。这样的设置确保了图像在经过 VAE 的缩放处理后,仍能满足 UNet 的最小输入尺寸要求,且两者在处理过程中尺寸是对齐的。
总结
- 理解 UNet 和 VAE 之间的关系以及它们在图像生成任务中的角色,对于高效使用
diffusers库生成高质量图像至关重要。 - 通过合理设置图像尺寸,我们可以确保生成过程中的每个阶段都能顺利进行,最终生成出符合预期的图像。
- 希望本文对你理解和应用 UNet 和 VAE 以及
diffusers库有所帮助。
相关官方文档:常用的 Unet👉 UNet2D 和 VAE 👉 AutoencoderKL
相关文章:
【diffusers极速入门(三)】生成的图像尺寸与 UNet 和 VAE 之间的关系
先上结论,一句话总结即: SD 图片的输入\输出尺寸(高或宽) Unet 输入\输出的样本尺寸(高或宽) x VAE 的缩放尺寸 在使用生成模型时,特别是图像生成任务中,理解 UNet 和 VAE…...
react实现窗口悬浮框,可拖拽、折叠、滚动
1、效果如下 2、如下两个文件不需要修改 drag.js import React from "react"; import PropTypes from "prop-types";export default class DragM extends React.Component {static propTypes {children: PropTypes.element.isRequired};static defaultP…...
52【场景作图】空间感
参考 场景绘制,画面空间感如何拉开?分分钟就能学会的场景优化思路更新啦!_哔哩哔哩_bilibili https://www.bilibili.com/video/BV1pa411J7Ps/?spm_id_from333.337.search-card.all.click&vd_source20db0c4e2d303527ed13c4b9cdf698ec 1 …...
SpringBoot系列之搭建WebSocket应用
SpringBoot系列之ServerEndpoint方式开发WebSocket应用。在实时的数据推送方面,经常会使用WebSocket或者MQTT来实现,WebSocket是一种不错的方案,只需要建立连接,服务端和客户端就可以进行双向的数据通信。很多网站的客户聊天&…...
RK3568技术笔记十四 Ubuntu创建共享文件夹
单击“虚拟机”,单击“设置”,如图所示: 单击“选项”,选择“总是启用(E)”,单击“添加”,如图所示: 单击“下一步”,如图所示: 单击“浏览”添加…...
JavaScript 获取地理位置 Geolocation
在现代的 web 应用程序中,获取用户的地理位置信息是一项常见的需求。这可以用于提供个性化内容、本地化服务或者基于位置的功能。HTML5 引入了 Geolocation API,使得从浏览器中获取地理位置信息变得非常简单。 1. Geolocation API 简介 Geolocation AP…...
android串口助手apk下载 源码 演示 支持android 4-14及以上
android串口助手apk下载 1、自动获取串口列表 2、打开串口就开始接收 3、收发 字符或16进制 4、默认发送at\r\n 5、android串口助手apk 支持android 4-14 (Google seral port 太老) 源码找我 需要 用adb root 再setenforce 0进入SELinux 模式 才有权限…...
windows11 生产力工具配置
一、系统安装 官方windows11.iso镜像文件安装操作系统时,会强制要求联网验证,否则无法继续安装操作系统,跳过联网登录账号的方式为:按下【shiftF10】快捷键,调出cmd命令窗口,输入命令 OOBE\BYPASSNRO 等…...
Nacos配置中心不可用会有什么影响
服务端: Nacos的数据存储接口 com.alibaba.nacos.config.server.service.DataSourceService 有两种实现: 如果指定了mysq 作为数据库,则必须使用 mysql 如果是 集群方式部署Nacos,则必须使用mysql 如果是单例方式部署 并且 没…...
AI时代下的自动化代码审计工具
代码审计工具分享 吉祥学安全知识星球🔗除了包含技术干货:Java代码审计、web安全、应急响应等,还包含了安全中常见的售前护网案例、售前方案、ppt等,同时也有面向学生的网络安全面试、护网面试等。 这两年一直都在提“安全左移”&…...
不懂索引,简历上都不敢写自己熟悉SQL优化
大家好,我是考哥。 今天给大家带来MySQL索引相关核心知识。对MySQL索引的理解甚至比你掌握SQL优化还重要,索引是优化SQL的前提和基础,我们一步步来先打好地基。 当MySQL表数据量不大时,缺少索引对查询性能的影响不会太大&#x…...
C# 设置PDF表单不可编辑、或提取PDF表单数据
PDF表单是PDF中的可编辑区域,允许用户填写指定信息。当表单填写完成后,有时候我们可能需要将其设置为不可编辑,以保护表单内容的完整性和可靠性。或者需要从PDF表单中提取数据以便后续处理或分析。 之前文章详细介绍过如何使用免费Spire.PDF…...
面试篇-求两个有序数组的交集
题目 两个有序数组,第一个有序数组m是1000w个元素,第二个有序数组n是1000个元素,求交集,需要考虑时间复杂度和空间复杂度。 解题思路 解法1:遍历小数组n,在m数组中进行折半查找,根据数组有序…...
Web爬虫-edu_SRC-目标列表爬取
免责声明:本文仅做技术交流与学习... 爬取后,结合暗黑搜索引擎等等进行进一步搜索. edu_src.py import requests, time from bs4 import BeautifulSoup for i in range(1, 20):url fhttps://src.sjtu.edu.cn/rank/firm/0/?page{i}print(f"正在获取第{i}页数据")s …...
云原生周刊:Harbor v2.11 版本发布 | 2024.6.17
开源项目推荐 Descheduler Descheduler 是一个工具,可用于优化 Kubernetes 集群中 Pod 的部署位置。它可以找到可以移动的 Pod,并将其驱逐,让默认调度器将它们重新调度到更合适的节点上。 Prowler Prowler 是一款适用于 AWS、Azure、GCP …...
低版本火狐浏览器报错:class is a reserved identifier
低版本火狐浏览器报错:class is a reserved identifier 原因:react-dnd,dnd-core 等node包的相关依赖有过更新,使得在低版本火狐浏览器中不支持 class 解决方法:在使用webpack打包构建时,编译排除node_modu…...
掌握高等数学、线性代数、概率论所需数学知识及标题建议
在数学的广袤领域中,高等数学、线性代数和概率论作为三大核心分支,不仅在理论研究中占据重要地位,更在实际应用中发挥着举足轻重的作用。为了深入理解和掌握这三门学科,我们需要掌握一系列扎实的数学知识。 高等数学所需数学知识 …...
value_and_grad
value_and_grad 是 JAX 提供的一个便捷函数,它同时计算函数的值和其梯度。这在优化过程中非常有用,因为在一次函数调用中可以同时获得损失值和相应的梯度。 以下是对 value_and_grad(loss, argnums0, has_auxFalse)(params, data, u, tol) 的详细解释&a…...
AI 已经在污染互联网了。。赛博喂屎成为现实
大家好,我是程序员鱼皮。这两年 AI 发展势头迅猛,更好的性能、更低的成本、更优的效果,让 AI 这一曾经高高在上的技术也走入大众的视野,能够被我们大多数普通人轻松使用,无需理解复杂的技术和原理。 其中,…...
Linux系统安装ODBC驱动,统信服务器E版安装psqlodbc方法
应用场景 硬件/整机信息:AMD平台 OS版本信息:服务器e版 软件信息:psqlodbc 12.02版本 功能介绍 部分用户在使用etl工具连接数据库时,需要使用到odbc驱动,下面介绍下服务器e版系统中编译安装此工具的相关过程。 E…...
86253
825747...
Docker部署Prowlarr保姆级教程:手把手教你搭建个人媒体库的索引中心
Docker部署Prowlarr全流程指南:打造高效媒体索引中心 在数字媒体管理领域,自动化工具链的搭建已经成为提升效率的关键。作为"Arr"家族的新成员,Prowlarr以其独特的索引聚合能力,正在改变用户管理Torrent和Usenet索引器的…...
LFM2.5-VL-1.6B效果展示:科研论文图→方法复现步骤图文拆解+公式解释
LFM2.5-VL-1.6B效果展示:科研论文图→方法复现步骤图文拆解公式解释 1. 模型概述 LFM2.5-VL-1.6B是由Liquid AI推出的轻量级多模态大模型,专为端侧和边缘设备设计。这个模型结合了1.2B参数的语言模型和约400M参数的视觉模型,总参数量为1.6B…...
Blazor 2026配置避坑大全,12个高频崩溃场景+对应csproj/.cshtml/.razor配置修复代码块
第一章:Blazor 2026配置避坑大全导论Blazor 2026 引入了多项底层运行时增强与项目模板重构,但其默认配置在跨平台构建、AOT 预编译、HTTP/3 支持及 WASM 主机生命周期管理等场景中存在隐性兼容陷阱。开发者若沿用 Blazor 2024 或更早版本的经验直接升级&…...
Proteus8仿真51单片机:手把手教你用IIC驱动24C02C EEPROM(附完整工程文件)
Proteus8仿真51单片机:从零构建IIC驱动24C02C EEPROM的完整指南 第一次接触51单片机的IIC通信时,我盯着示波器上那些高低电平的波形看了整整一个下午。作为嵌入式开发中最常用的通信协议之一,IIC以其简洁的两线制(SCL时钟线和SDA数…...
SteamCleaner:一键清理六大游戏平台垃圾文件的终极解决方案
SteamCleaner:一键清理六大游戏平台垃圾文件的终极解决方案 【免费下载链接】SteamCleaner :us: A PC utility for restoring disk space from various game clients like Origin, Steam, Uplay, Battle.net, GoG and Nexon :us: 项目地址: https://gitcode.com/g…...
深度学习框架使用 YOLOv8 进行训练无人机视角的可见光-红外火点和烟雾检测数据集红外可见光配对 双模态输入(多模态)无人机红外可见光火灾烟雾数据集的训练评估及推理
使用 YOLOv8 进行训练无人机视角的可见光-红外配对火点和烟雾检测数据集 双模态输入(多模态)无人机红外可见光火灾烟雾数据集的训练评估及推理 以下文字及代码可供参考。仅供参考。 文章目录**1. 环境搭建****2. 数据准备****2.1 数据格式转换࿰…...
KMS_VL_ALL_AIO:Windows系统与Office套件的一站式智能激活解决方案
KMS_VL_ALL_AIO:Windows系统与Office套件的一站式智能激活解决方案 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 在Windows系统管理与软件部署领域,激活问题始终是技术…...
从Intel 600P到三星980 Pro:聊聊Linux内核里那些针对NVMe SSD的‘特殊照顾’(Quirks)
从Intel 600P到三星980 Pro:Linux内核如何为不同NVMe SSD定制电源管理方案 当你在Linux服务器上部署一块三星980 Pro NVMe SSD时,可能不会想到内核开发者早已为这块盘准备了特殊的"照顾"——就像对待一个需要特别关照的VIP客人。这种隐藏在驱动…...
从示波器波形到代码调试:AD5700 HART通信不稳定的排查指南(附STM32例程)
从示波器波形到代码调试:AD5700 HART通信不稳定的排查指南(附STM32例程) 当你面对一个看似简单的HART通信模块AD5700,硬件连接正确,代码也按手册编写,但通信却时好时坏——这种"玄学"问题往往让工…...
