当前位置：首页 > news >正文

第二十三周周报：High-fidelity Person-centric Subject-to-Image Synthesis

news 2025/7/9 16:52:03

摘要

Abstract

TDM

SDM

SNF

测试时的人物细节捕捉

主要贡献

总结

摘要

本周阅读了一篇2024年CVPR的关于高保真度、以人物为中心的图像合成方法的论文：High-fidelity Person-centric Subject-to-Image Synthesis。该论文提出了一种名为Face-diffuser的生成管道，旨在解决现有方法在训练不平衡和质量妥协问题上的不足，通过独立微调两个专门的预训练扩散模型来实现人物和语义场景的合成。

Abstract

This week, I read a paper from CVPR 2024 on a high-fidelity, person-centric image synthesis method titled "High-fidelity Person-centric Subject-to-Image Synthesis". The paper proposes a generative pipeline called Face-diffuser, aimed at addressing the shortcomings of existing methods in terms of training imbalance and quality compromise. It achieves the synthesis of subjects and semantic scenes by independently fine-tuning two specialized pre-trained diffusion models.

论文链接：2311.10329 (arxiv.org)

作者：Yibin Wang, Weizhong Zhang, Jianwei Zheng, Cheng Jin

该论文以现有的人物到图像合成方法面临着训练不平衡和质量妥协的问题，导致在联合学习中无法优化人物生成的质量为研究背景。为了解决上述问题，研究者提出了Face-diffuser，这是一个有效的协作生成管道，用于人物和语义场景的合成。Face-diffuser首先独立微调两个基于稳定扩散的专门预训练扩散模型：Text-driven Diffusion Model (TDM)和Subject-augmented Diffusion Model (SDM)，分别用于场景和人物生成。

效果图如下所示：

Face-diffuser的采样过程分为三个连续阶段：

语义场景构建：使用TDM构建初步的语义场景。
人物-场景融合：TDM和SDM基于有效的协作机制Saliency-adaptive Noise Fusion（SNF）进行协作，将人物融入场景中。
人物增强：进一步使用SDM来细化生成人物的质量。

网络结构图如下所示：

TDM

Stable diffusion (SD) is employed as our TDM. For semantic scene generation, given the semantic scene prompt c and the input image x, the VAE first encodes the x into a latent
representation z, perturbed by Gaussian noise ε to get $z_{t}$ at t step during diffusion. Then the text encoder ψ maps semantic scene prompts c to conditional embeddings ψ(c) which
would be integrated into the denoiser $\varepsilon _{\theta }$ , U-Net through cross-attention [8, 9, 29, 32]. The training objective is to minimize the loss function as follows:

$L_{noise}=E_{z,c,\varepsilon \sim N(0,1),t}\left \| \varepsilon -\varepsilon _{\theta }(z_{t},t,\psi _{c}) \right \|_{2}^{2}$

During inference, a random noise $z_{T}$ is sampled from a normal distribution N (0, 1), and this noise is iteratively denoised by the U-Net to produce the initial latent representation $z_{0}$ .
Subsequently, the VAE decoder maps these latent codes back to pixel space to generate the final image.

稳定扩散（SD）被用作我们的文本驱动扩散模型（TDM）。对于语义场景生成，给定语义场景提示c和输入图像x，变分自编码器（VAE）首先将x编码成潜在表示z，通过高斯噪声ε扰动得到扩散过程中第t步的 $z_{t}$ 。然后，文本编码器ψ将语义场景提示c映射到条件嵌入ψ(c)，这些嵌入将通过交叉注意力机制[8, 9, 29, 32]整合到去噪器，U-Net中。训练目标是最小化如下损失函数：

$L_{noise}=E_{z,c,\varepsilon \sim N(0,1),t}\left \| \varepsilon -\varepsilon _{\theta }(z_{t},t,\psi _{c}) \right \|_{2}^{2}$

推理过程中，从标准正态分布 N(0,1)中采样一个随机噪声 ϵ，并由 U-Net 迭代去噪以产生初始的潜在表示 $z_{0}$ 。随后，VAE 解码器将这些潜在编码映射回像素空间以生成最终图像。

SDM

The SDM model tailored for subject generation is also based on the SD model but includes an additional reference image condition r . Inspired by previous works like [17, 34], we

adopt a tuning-free approach by enhancing text prompts with visual features extracted from reference images. When given a text prompt and a list of reference images, we begin by

encoding the text prompt and reference subjects into embeddings using pre-trained CLIP text and image encoders, respectively. Following this, we replace the user-specific word embeddings with these visual features and input the resulting augmented embeddings into a multilayer perceptron (MLP). This process yields the final conditioning embeddings, denoted as $\psi (c)_{aug}$ . The loss function of SDM closely resembles the one in Eq. (1), wi th the substitution of ψ ( c ) by $\psi (c)_{aug}$ .

$L_{noise}=E_{z,c,\varepsilon \sim N(0,1),t}\left \| \varepsilon -\varepsilon _{\theta }(z_{t},t,\psi _{(c)aug}) \right \|_{2}^{2}$

为生成主体而定制的SDM模型也基于SD模型，但包括一个额外的参考图像条件 r。受到像 [17, 34] 这样的先前工作的启发，我们采用了一种无需调整的方法，通过从参考图像中提取视觉特征来增强文本提示。当给定一个文本提示和一系列参考图像时，我们首先使用预训练的CLIP文本和图像编码器分别对文本提示和参考主体进行编码，生成嵌入。接下来，我们用这些视觉特征替换用户特定的词嵌入，并将生成的增强嵌入输入到多层感知器（MLP）中。这个过程产生了最终的条件嵌入，记作 $\psi (c)_{aug}$ 。SDM的损失函数与方程（1）中的非常相似，只是将 ψ(c)替换为 $\psi (c)_{aug}$ 。

$L_{noise}=E_{z,c,\varepsilon \sim N(0,1),t}\left \| \varepsilon -\varepsilon _{\theta }(z_{t},t,\psi _{(c)aug}) \right \|_{2}^{2}$

SNF

请注意，响应 $R_{T}$ 和 $R_{S }$ 实际上评估了语义场景和参考图像对预测噪声中每个像素的影响，具有较大值的区域意味着这些条件对这些像素有显著影响，这自然定义了TDM和STM在这一步的责任。

正式地，我们首先基于 $R_{T}$ 和 $R_{S }$ 定义以下两个显著性图：

$\Omega ^{T}=Smooth(Abs(R_{T}))$

$\Omega ^{S}=Smooth(Abs(R_{S}))$

其中，操作符 Abs(⋅)计算输入变量的绝对值，而 Smooth(⋅) 函数用于减少高频噪声，有效地消除局部异常值并增强相邻区域的一致性。 $\Omega ^{T}$ 和 $\Omega ^{S}$ 的实证验证，即它们的视觉化呈现在第4.3节。

给定 $\Omega ^{T}$ 和 $\Omega ^{S}$ ，我们继续通过比较这两个显著性图来开发显著性自适应融合掩码：

$M=argmax(Softmax(\Omega ^{T}),Softmax(\Omega ^{S}))$

这里的softmax操作至关重要，因为 $\Omega ^{T}$ 和 $\Omega ^{S}$ 的值可能有不同的量级，它确保每个显著性图的总和保持不变，从而使它们可比较。掩码 M 被用来定义协作机制，即 $M_{ij}=0$ 和 $M_{ij}=1$ 的像素分别在生成过程中分配给TDM和SDM。

最后，可以通过以下过程获得融合后的噪声：

$\widehat{\varepsilon }=M\bigodot \widehat{\varepsilon }_{S}+(1-M)\bigodot \widehat{\varepsilon }_{T}$

这里的 ⊙ 表示哈达玛积（即元素对应的乘积），为了简化表示，我们省略了 t。需要注意的是，在每个采样步骤中，两个模型都以混合后的 $z_{t}$ 作为输入，这有助于自动实现两个模型噪声空间的语义对齐。

SNF是一种基于分类器自由引导（CFG）的细粒度协作机制，可以无缝集成到DDIM采样过程中。在每一步中，SNF利用两个模型的CFG响应来生成一个适应于显著性的掩码，自动分配区域给它们进行合成。

测试时的人物细节捕捉

为了在测试时捕获并保留参考图像中给出的人物细节，Face-diffuser让SDM中的CFG响应成为有无参考人物图像之间的噪声差异，从而忽略文本条件的影响。这种设置无疑指导SDM将显著性仅集中在与人物相关的区域，从而实现更高精度的人物生成。

主要贡献

提出的Face-diffuser打破了现有人物到图像生成方法中的训练不平衡和质量妥协问题。
通过有效的协作机制，Face-diffuser能够在测试时生成高质量样本，人物和语义场景生成器在不同时间步骤和不同图像中负责不同区域，实现灵活的演变合作。

总结

Face-diffuser通过独立微调和细粒度协作机制，显著提高了人物和语义场景生成的高保真度。这种方法为解决现有人物到图像合成方法中的问题提供了一种有效的解决方案，并为未来的研究和应用提供了新的方向。

下周将继续学习扩散生成模型有关内容。

如有错误，请各位大佬指出，谢谢！

第二十三周周报：High-fidelity Person-centric Subject-to-Image Synthesis

摘要

Abstract

TDM

SDM

SNF

测试时的人物细节捕捉

主要贡献

总结

相关文章：

第二十三周周报：High-fidelity Person-centric Subject-to-Image Synthesis

Cesium 与 Leaflet：地理信息可视化技术比较

Linux 服务器使用指南：诞生与演进以及版本（一）

龙蜥 Linux 安装 JDK

Python小白语法基础20(模块与包)

详解 Qt QtPDF之QPdfPageNavigator 页面跳转

通俗易懂：序列标注与命名实体识别（NER）概述及标注方法解析

【C语言】二叉树（BinaryTree）的创建、3种递归遍历、3种非递归遍历、结点度的实现

2024年11月文章一览

重生之我在异世界学编程之C语言：二维数组篇

和鲸科技创始人CEO范向伟出席首届工业智算产业发展研讨会，共话 AI 创新与产业化落地

postgres数据备份与主从配置

【二分查找】力扣 275. H 指数 II

使用uni-app进行开发前准备

AI开发-深度学习框架-PyTorch-torchnlp

VBA数据库解决方案第十七讲：Recordset对象记录位置的定位方法

Ubuntu 操作系统

Maven 内置绑定到底怎么回事？

如何把Qt exe文件发送给其他人使用

【汇编语言】call 和 ret 指令（三） —— 深度解析汇编语言中的批量数据传递与寄存器冲突

linux之kylin系统nginx的安装

C++初阶-list的底层

Lombok 的 @Data 注解失效，未生成 getter/setter 方法引发的HTTP 406 错误

ES6从入门到精通：前言

【SpringBoot】100、SpringBoot中使用自定义注解+AOP实现参数自动解密

java调用dll出现unsatisfiedLinkError以及JNA和JNI的区别

现代密码学 | 椭圆曲线密码学—附py代码

WordPress插件：AI多语言写作与智能配图、免费AI模型、SEO文章生成

用docker来安装部署freeswitch记录

使用Spring AI和MCP协议构建图片搜索服务