当前位置：首页 > news >正文

字节和旷视提出HiDiffusion，无需训练，只需要一行代码就可以提高 SD 生成图像的清晰度和生成速度。代码已开源。

news 2026/2/7 21:52:26

字节和旷视提出HiDiffusion，无需训练，只需要一行代码就可以提高 SD 生成图像的清晰度和生成速度。代码已开源。

支持将图像生成的分辨率提高至4096×4096，同时将图像生成速度提升1.5至6倍。
支持所有 SD 模型同时也支持 SD 模型的下游模型，比如ControlNet,Inpainting，Playground等。

为什么选择 HiDiffusion

HiDiffusion是一种免训练方法，可提高预训练扩散模型的分辨率和速度。
设计为即插即用实施。只需添加一行代码即可将其集成到扩散管道中！

支持的模型

Stable Diffusion XL
Stable Diffusion XL Turbo
Stable Diffusion v2
Stable Diffusion v1

支持的任务

Text-to-image
ControlNet
Inpainting

更快更好的图像细节

相关链接

Github:https://github.com/megvii-research/HiDiffusion

论文：https://arxiv.org/pdf/2311.17528

论文阅读

HiDiffusion:解锁更高的分辨率预训练扩散模型中的创造力和效率

摘要

扩散模型已成为高分辨率图像合成的主流方法。但是直接从预处理的扩散模型中生成高解决图像将遇到不合理的对象重复，并指数增加生成时间。

在本文中，我们发现对象重复是由U-NET深块的特征重复引起的。同时，我们将延长的生成时间指定为U-NET的顶部块中的自我发挥冗余。为了解决这些问题，我们提出了一个名为Hidiffusion的无调高分辨率框架。

具体而言，Hidiffusion包含分辨率感知的U-NET（RAU-NET），该分辨率可以动态调整特征映射大小以解决对象重复并参与修改后的移位窗口多头自我注意（MSW-MSA），该窗口使用优化的窗口注意力来减少计算。我们可以将Hidiffusion集成到各种预处理的扩散模型中，以将图像生成分辨率扩展到4096×4096，以1.5-6×以前方法的推理速度。广泛的实验表明，我们的方法可以解决对象重复和重度计算问题，从而在高分辨率图像合成任务上实现最先进的性能。

方法

U-Net架构。

实现了U-Net作为稳定扩散神经主干，它包含几个Down Blocks, Up Blocks和一个Mid 块，如下图a所示。Mid Block在我们的方法中保持不变。因此，为了简单起见，我们省略了它。每个向下块和向上块可以分别写成:

vanilla 稳定扩散的U-Net架构和我们提出的HiDiffusion RAU-Net架构在1024×1024分辨率和SD 1.5上的比较。

冻结所有块中的参数。主要区别在于蓝色块(不同) 在特征图的维度中)和橙色块(我们提出的RAD和RAU)模块被合并到Block 1中)。

实验

我们将我们的方法纳入sd1.5，sd2.1，SDXL Turbo和SDXL来评估我们方法的有效性。sd1.5及 SD 2.1能够生成512×512分辨率的图像。

我们整合HiDiffusion将它们缩放到1024×1024和2048×2048。我们使用HiDiffusion将SDXL Turbo的生成分辨率缩放到1024×1024。

上图为各种扩散模型、分辨率和比率方面选择HiDiffusion示例。HiDiffusion使预训练的扩散模型能够产生更高的分辨率超过训练图像大小的图像，无需进一步的训练或微调可以有效加速推理。

基于sd1.5的不同推理步骤的特征图可视化。图像分辨率为1024×1024，采用50步DDIM。

基于sd1.5的RAU-Net和MSW-MSA的影响。分辨率为1024×1024。

基于sd1.5的1024×1024分辨率SDEdit任务。

基于sd1.5的ControlNet任务1024×1024分辨率。

基于sd1.5的不同扩散加速方法的定性比较。分辨率是1024×1024。基线为RAU-Net的sd1.5。

结论

在本文中，我们提出了一个名为HiDiffusion的免调优框架，用于更高分辨率的图像生成。HiDiffusion包括分辨率感知U-Net (RAUNet)，使更高分辨率的生成成为可能，以及改进的移位窗口多头部自注意(MSW-MSA)，使更高分辨率的生成更有效。

根据经验HiDiffusion可以纳入sd1.5，sd2.1、SDXL和SDXL Turbo，并对它们进行缩放生成1024×1024，2048×2048甚至4096×4096分辨率图像，同时显著降低HiDiffusion推理时间。

与以往的高分辨率图像生成方法相比，我们可以在更短的推理时间内生成细节更丰富的图像。我们希望我们的工作可以为未来关于扩散模型可扩展性的工作带来启发。

相关文章：

字节和旷视提出HiDiffusion，无需训练，只需要一行代码就可以提高 SD 生成图像的清晰度和生成速度。代码已开源。

字节和旷视提出HiDiffusion，无需训练，只需要一行代码就可以提高 SD 生成图像的清晰度和生成速度。代码已开源。支持将图像生成的分辨率提高至40964096，同时将图像生成速度提升1.5至6倍。支持所有 SD 模型同时也支持 SD 模型的下游模型&…...

编程日记 2024/5/8 3:03:17

linux下dd制作启动U盘

dd命令是比较推荐的一种Linux环境中制作U盘启动盘的方式，无需安装额外的工具，基本上所有Linux发行版都集成了这个命令。 1、插入U盘； 2、打开终端； 3、确认U盘路径，在终端中输入：sudo fdisk -l 例如&am…...

编程日记 2024/5/8 3:02:16

springboot整合mybatis配置多数据源（mysql/oracle）

目录前言导入依赖坐标创建mysql/oracle数据源配置类MySQLDataSourceConfigOracleDataSourceConfig application.yml配置文件配置mysql/oracle数据源编写Mapper接口编写Book实体类编写测试类前言 springboot整合mybatis配置多数据源，可以都是mysql数据源&#xff…...

编程日记 2024/5/8 3:00:13

练习项目后端代码解析切面篇（Aspect）

前言之前注解篇时我说，通常情况下一个自定义注解一般对应一个切面，虽然项目里的切面和注解个数相同，但是好像有一个名字看起来并不对应，无所谓，先看了再说。 ExceptionLogAspect切面我在里面做了具体注释&#x…...

编程日记 2024/5/8 2:58:12

TypeScript常见面试题第六节

题目二十六：TypeScript 中的装饰器？一、讲解视频 TS面试题二十六：TypeScript 中的可选链？二、题目解析本题目考察可选链的相关知识，可选链是比较新的一个语法，是一种访问嵌套对象属性的安全的方式。即使中间的属性不存在，也不会出现错误。如果可选链 ?. 前面的值为…...

编程日记 2024/5/8 2:56:10

LeetCode 面试经典150题 228.汇总区间

题目： 给定一个无重复元素的有序整数数组 nums 。返回恰好覆盖数组中所有数字的最小有序区间范围列表。也就是说，nums 的每个元素都恰好被某个区间范围所覆盖，并且不存在属于某个范围但不属于 nums 的数字 x 。列表中的每个区…...

编程日记 2024/5/8 2:55:08

大数据分析入门10分钟快速了解SQL

SQL是什么？ SQL全称Structured Query Language(结构化查询语言”) 为什么要用SQL？ SQL通用常见的表格分析操作，Excel也能做，为什么不用呢？ 因为处理上亿行大数据时，Excel并不够用。而常见的大数据引…...

编程日记 2024/5/8 2:54:07

设置多用户远程登录windows server服务器

##设置多用户远程登录windows server服务器 ###1、远程登录windows server 2016 运行—>mstsc—>远程IP地址—>用户和密码 2、远程windows服务器设置多用户策略运行—>gpedit.msc->计算机配置—管理模板—windows组件—远程桌面服务—远程桌面会话主机----连…...

编程日记 2024/5/8 2:53:06

一文了解栈

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、栈是什么？二、栈的实现思路1.顺序表实现2.单链表实现3.双向链表实现三、接口函数的实现1.栈的定义2.栈的初始化3.栈的销毁4.入栈5.出栈6.返回栈…...

编程日记 2024/5/8 2:52:05

C语言----汉诺塔问题

1.什么是汉诺塔问题简单来说，就是有三个柱子，分别为A柱，B柱，C柱。其中A柱从上往下存放着从小到大的圆盘，我们需要借助B柱和C柱，将A柱上的所有圆盘转移到C柱上，并且一次只能移动一个圆盘&#…...

编程日记 2024/5/8 2:50:03

Python中驼峰命名法和下划线命名法相互转换的实战代码

大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…...

编程日记 2024/5/8 2:49:02

【hackmyvm】vivifytech靶机

渗透思路信息收集端口扫描端口服务信息目录扫描爆破hydra--sshgit提权信息收集 ┌──(kali㉿kali)-[~] └─$ fping -ag 192.168.9.0/24 2>/dev/null 192.168.9.119 --主机 192.168.9.164 --靶机个人习惯，也方便后续操作，将IP地址赋值给一个变…...

编程日记 2024/5/8 2:48:01

纯血鸿蒙APP实战开发——手写绘制及保存图片

介绍本示例使用drawing库的Pen和Path结合NodeContainer组件实现手写绘制功能。手写板上完成绘制后，通过调用image库的packToFile和packing接口将手写板的绘制内容保存为图片，并将图片文件保存在应用沙箱路径中。效果图预览使用说明在虚线区域手写…...

编程日记 2024/5/8 2:47:00

在什么情况下表单会被重复提交？如何避免？

表单被重复提交是Web应用中常见的问题，通常在用户提交表单后点击按钮多次，或在表单提交后刷新页面时发生。这可能导致数据的重复处理，比如重复记录或订单。何时会发生表单重复提交？ 用户多次点击提交按钮：在网络延迟…...

编程日记 2024/5/8 2:45:59

JavaScript 中的 Class 类

🔥 个人主页：空白诗文章目录 🔥 引言🎯 基础知识🏗️ 构造函数 (Constructor)🔐 私有字段 (Private Fields)🔐 私有方法 (Private Methods)🧬 继承 (Inheritance)📦 静态…...

编程日记 2024/5/8 2:44:58

python实验三实现UDP协议、TCP协议进行服务器端与客户端的交互

实验三实验题目 1、请利用生成器构造一下求阶乘的函数Factorial()，定义一个函数m()，在m()中调用生成器Factorial()生成小于100的阶乘序列存入集合s中，输出s。【代码】 def factorial():n1f1while 1: f * n yield (f) n1…...

编程日记 2024/5/8 2:43:57

ServiceNow 研究：通过RAG减少结构化输出中的幻觉

论文地址：https://arxiv.org/pdf/2404.08189 原文地址：rag-hallucination-structure-research-by-servicenow 在灾难性遗忘和模型漂移中，幻觉仍然是一个挑战。 2024 年 4 月 18 日灾难性遗忘： 这是在序列学习或连续学习环境中出现…...

编程日记 2024/5/8 2:41:54

ADS基础教程10-多态性（动态模型选择）

目录一、多态性定义二、操作步骤１.模型建立２.模型选择３.执行仿真一、多态性定义 ADS中支持一个Symbol中，可以同时存在多个子图。在仿真时可以动态选择不同的子图继续宁仿真。二、操作步骤 １.模型建立在上一章A…...

编程日记 2024/5/8 2:39:53

代码随想录第四十六天|单词拆分

题目链接：. - 力扣（LeetCode）...

编程日记 2024/5/8 2:38:52

RabbitMQ的介绍和使用

1.同步通讯和异步通讯举个例子，同步通讯就像是在打电话，因此它时效性较强，可以立即得到结果，但如果你正在和一个MM打电话，其他MM找你的话，你们之间是不能进行消息的传递和响应的异步通讯就像是微信&#…...

编程日记 2024/5/8 2:37:51

UDP(Echoserver)

网络命令 Ping 命令检测网络是否连通使用方法: ping -c 次数网址ping -c 3 www.baidu.comnetstat 命令 netstat 是一个用来查看网络状态的重要工具. 语法：netstat [选项] 功能：查看网络状态常用选项： n 拒绝显示别名&#…...

编程新知 2026/1/24 7:56:15

【C语言练习】080. 使用C语言实现简单的数据库操作

080. 使用C语言实现简单的数据库操作 080. 使用C语言实现简单的数据库操作使用原生APIODBC接口第三方库ORM框架文件模拟1. 安装SQLite2. 示例代码：使用SQLite创建数据库、表和插入数据3. 编译和运行4. 示例运行输出：5. 注意事项6. 总结080. 使用C语言实现简单的数据库操作在…...

编程新知 2025/9/22 21:37:01

NLP学习路线图（二十三）：长短期记忆网络（LSTM）

在自然语言处理（NLP）领域，我们时刻面临着处理序列数据的核心挑战。无论是理解句子的结构、分析文本的情感，还是实现语言的翻译，都需要模型能够捕捉词语之间依时序产生的复杂依赖关系。传统的神经网络结构在处理这种序列依赖时显得力不从心，而循环神经网络（RNN）曾被视为…...

编程新知 2026/2/1 7:05:28

html css js网页制作成品——HTML+CSS榴莲商城网页设计（4页）附源码

目录一、👨‍🎓网站题目二、✍️网站描述三、📚网站介绍四、🌐网站效果五、🪓 代码实现 🧱HTML 六、🥇 如何让学习不再盲目七、🎁更多干货一、👨‍&#x1f…...

编程新知 2026/1/27 20:34:19

【SSH疑难排查】轻松解决新版OpenSSH连接旧服务器的“no matching...“系列算法协商失败问题

【SSH疑难排查】轻松解决新版OpenSSH连接旧服务器的"no matching..."系列算法协商失败问题摘要： 近期，在使用较新版本的OpenSSH客户端连接老旧SSH服务器时，会遇到 "no matching key exchange method found", "n…...

编程新知 2025/9/29 4:00:38

VisualXML全新升级 | 新增数据库编辑功能

VisualXML是一个功能强大的网络总线设计工具，专注于简化汽车电子系统中复杂的网络数据设计操作。它支持多种主流总线网络格式的数据编辑（如DBC、LDF、ARXML、HEX等），并能够基于Excel表格的方式生成和转换多种数据库文件。由此&…...

编程新知 2026/2/6 5:51:15

Java并发编程实战 Day 11：并发设计模式

【Java并发编程实战 Day 11】并发设计模式开篇这是"Java并发编程实战"系列的第11天，今天我们聚焦于并发设计模式。并发设计模式是解决多线程环境下常见问题的经典解决方案，它们不仅提供了优雅的设计思路，还能显著提升系统的性能…...

编程新知 2025/12/10 19:17:05

初探用uniapp写微信小程序遇到的问题及解决(vue3+ts)

零、关于开发思路（一）拿到工作任务，先理清楚需求 1.逻辑部分不放过原型里说的每一句话，有疑惑的部分该问产品/测试/之前的开发就问 2.页面部分（含国际化）整体看过需要开发页面的原型后，分类一下哪些组件/样式可以复用，直接提取出来使用 (时间充分的前提下，不…...

编程新知 2026/2/1 9:14:57

CppCon 2015 学习:Simple, Extensible Pattern Matching in C++14

什么是 Pattern Matching（模式匹配） ❝ 模式匹配就是一种“描述式”的写法，不需要你手动判断、提取数据，而是直接描述你希望的数据结构是什么样子，系统自动判断并提取。❞ 你给的定义拆解： ✴ Instead of …...

编程新知 2026/1/11 9:41:00

代理服务器-LVS的3种模式与调度算法

作者介绍：简历上没有一个精通的运维工程师。请点击上方的蓝色《运维小路》关注我，下面的思维导图也是预计更新的内容和当前进度(不定时更新)。我们上一章介绍了Web服务器，其中以Nginx为主，本章我们来讲解几个代理软件&#xff1a…...

编程新知 2026/1/24 17:58:05