当前位置：首页 > news >正文

论文笔记（六十三）Understanding Diffusion Models: A Unified Perspective（三）

news 文章来源：https://blog.csdn.net/xzs1210652636/article/details/145342213 2025/4/29 21:08:43

Understanding Diffusion Models: A Unified Perspective（三）

文章概括

文章概括

引用：

@article{luo2022understanding,title={Understanding diffusion models: A unified perspective},author={Luo, Calvin},journal={arXiv preprint arXiv:2208.11970},year={2022}
}

Luo, C., 2022. Understanding diffusion models: A unified perspective. arXiv preprint arXiv:2208.11970.

原文： https://arxiv.org/abs/2208.11970
代码、数据和视频：https://arxiv.org/abs/2208.11970

系列文章：
请在 $《$ 文章 $》$ 专栏中查找

利用这一新公式，我们可以重新从公式 (37) 中的ELBO开始推导：

在这里插入图片描述

我们因此成功地推导出了一个可以用较低方差估计的ELBO解释，因为每一项最多是关于一个随机变量的期望。这种形式还有一个优雅的解释，当我们检查每个独立项时可以发现：

$\mathbb{E}_{q(x_1|x_0)}[\log p_{\theta}(x_0|x_1)]$ 可以被解释为一个重构项；与普通VAE的ELBO中的类似项一样，该项可以通过蒙特卡洛估计进行近似和优化。
$D_{KL}(q(x_T|x_0) \| p(x_T))$ 表示最终加噪输入的分布与标准高斯先验的接近程度。在我们的假设下，该项没有可训练参数，并且也等于零。
$\mathbb{E}_{q(x_t|x_0)}[D_{KL}(q(x_{t-1}|x_t, x_0) \| p_{\theta}(x_{t-1}|x_t))]$ 是一个去噪匹配项。我们学习期望的去噪转换步骤 $p_{\theta}(x_{t-1}|x_t)$ ，使其作为可求解的真实去噪转换步骤 $q(x_{t-1}|x_t, x_0)$ 的近似。去噪步骤 $q(x_{t-1}|x_t, x_0)$ 可以作为一个真实信号，因为它定义了如何通过访问完全去噪的图像 $x_0$ ，对噪声图像 $x_t$ 进行去噪。因此，当两个去噪步骤尽可能匹配时，该项的KL散度最小化。

需要补充注意的是，在两种ELBO推导（公式45和公式58）的过程中，只使用了马尔可夫假设；因此，这些公式对于任意的马尔可夫HVAE都适用。此外，当我们设置 $T = 1$ 时，两种对于VDM的ELBO解释都能准确重现普通VAE的ELBO公式，如公式19所示。
$\begin{aligned} \mathbb{E}_{q_{\phi}(z|x)} \left[ \log \frac{p(x, z)}{q_{\phi}(z|x)} \right] &= \mathbb{E}_{q_{\phi}(z|x)} \left[ \log \frac{p_{\theta}(x|z) p(z)}{q_{\phi}(z|x)} \right] & \quad (\text{Chain Rule of Probability}) &\text{(17)} \\ &= \mathbb{E}_{q_{\phi}(z|x)} [\log p_{\theta}(x|z)] + \mathbb{E}_{q_{\phi}(z|x)} \left[ \log \frac{p(z)}{q_{\phi}(z|x)} \right] & \quad (\text{Split the Expectation}) &\text{(18)} \\ &= \underbrace{\mathbb{E}_{q_{\phi}(z|x)} [\log p_{\theta}(x|z)]}_\text{reconstruction term} - \underbrace{D_{KL}(q_{\phi}(z|x) \| p(z))}_\text{prior matching term} & \quad (\text{Definition of KL Divergence}) &\text{(19)} \end{aligned}$
在此ELBO推导中，大部分优化成本再次集中在求和项上，这一部分主导了重构项。对于任意复杂的马尔可夫HVAE，由于需要同时学习编码器，每个KL散度项 $D_{KL}(q(x_{t-1}|x_t, x_0) \| p_{\theta}(x_{t-1}|x_t))$ 都很难最小化。然而，在VDM中，我们可以利用高斯转换假设使优化变得可解。根据贝叶斯公式，我们有：

$q(x_{t-1}|x_t, x_0) = \frac{q(x_t|x_{t-1}, x_0) q(x_{t-1}|x_0)}{q(x_t|x_0)}$

正如我们已经知道的， $q(x_t|x_{t-1}, x_0) = q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{\alpha_t}x_{t-1}, (1 - \alpha_t)\mathbf{I})$ ，这是基于我们关于编码器转换的假设（公式31： $q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{\alpha_t}x_{t-1}, (1 - \alpha_t)\mathbf{I})$ ）。接下来需要推导的是 $q(x_t|x_0)$ 和 $q(x_{t-1}|x_0)$ 的形式。

幸运的是，由于VDM的编码器转换是线性高斯模型，这些推导也变得可行。回想一下，在重参数化技巧下，从 $q(x_t|x_{t-1})$ 中采样的样本 $x_t \sim q(x_t|x_{t-1})$ 可以被重写为：

$x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{1 - \alpha_t} \, \epsilon \quad \text{with} \quad \epsilon \sim \mathcal{N}(\epsilon; 0, \mathbf{I}) \tag{59}$

同样，从 $q(x_{t-1}|x_{t-2})$ 中采样的样本 $x_{t-1} \sim q(x_{t-1}|x_{t-2})$ 可以被重写为：

$x_{t-1} = \sqrt{\alpha_{t-1}} x_{t-2} + \sqrt{1 - \alpha_{t-1}} \, \epsilon \quad \text{with} \quad \epsilon \sim \mathcal{N}(\epsilon; 0, \mathbf{I}) \tag{60}$

然后， $q(x_t|x_0)$ 的形式可以通过多次应用重参数化技巧递归推导出来。假设我们可以访问 $2 T$ 个随机噪声变量 $\{\epsilon_t^*, \epsilon_t\}_{t=0}^T$ ，且这些变量独立同分布， $\epsilon \sim \mathcal{N}(\epsilon; 0, \mathbf{I})$ 。那么，对于任意样本 $x_t \sim q(x_t|x_0)$ ，我们可以将其重写为：

$\begin{aligned} x_t &= \sqrt{\alpha_t} x_{t-1} + \sqrt{1 - \alpha_t} \epsilon_{t-1}^* &\text{(61)} \\ &= \sqrt{\alpha_t} \left( \sqrt{\alpha_{t-1}} x_{t-2} + \sqrt{1 - \alpha_{t-1}} \epsilon_{t-2}^* \right) + \sqrt{1 - \alpha_t} \epsilon_{t-1}^* &\text{(62)} \\ &= \sqrt{\alpha_t \alpha_{t-1}} x_{t-2} + \sqrt{\alpha_t - \alpha_t \alpha_{t-1}} \epsilon_{t-2}^* + \sqrt{1 - \alpha_t} \epsilon_{t-1}^* &\text{(63)} \\ &= \sqrt{\alpha_t \alpha_{t-1}} x_{t-2} + \sqrt{\sqrt{\alpha_t - \alpha_t \alpha_{t-1}}^2 + \sqrt{1 - \alpha_t}^2} \epsilon_{t-2} &\text{(64)} \\ &= \sqrt{\alpha_t \alpha_{t-1}} x_{t-2} + \sqrt{\alpha_t - \alpha_t \alpha_{t-1} + 1 - \alpha_t} \epsilon_{t-2} &\text{(65)} \\ &= \sqrt{\alpha_t \alpha_{t-1}} x_{t-2} + \sqrt{1 - \alpha_t \alpha_{t-1}} \epsilon_{t-2} &\text{(66)} \\ &= \cdots &\text{(67)} \\ &= \sqrt{\prod_{i=1}^t \alpha_i} x_0 + \sqrt{1 - \prod_{i=1}^t \alpha_i} \epsilon_0 &\text{(68)} \\ &= \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon_0 &\text{(69)} \\ &\sim \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1 - \bar{\alpha}_t) \mathbf{I}) &\text{(70)} \end{aligned}$

在公式(64)中，我们利用了以下事实：两个独立高斯随机变量的和仍然是一个高斯分布，其均值为两个均值的和，方差为两个方差的和。将 $\sqrt{1 - \alpha_t} \epsilon_{t-1}^*$ 解释为从高斯分布 $\mathcal{N}(0, (1 - \alpha_t) \mathbf{I})$ 中采样的样本，将 $\sqrt{\alpha_t - \alpha_t \alpha_{t-1}} \epsilon_{t-2}^*$ 解释为从高斯分布 $\mathcal{N}(0, (\alpha_t - \alpha_t \alpha_{t-1}) \mathbf{I})$ 中采样的样本，则它们的和可以看作是一个从高斯分布 $\mathcal{N}(0, (1 - \alpha_t + \alpha_t - \alpha_t \alpha_{t-1}) \mathbf{I}) = \mathcal{N}(0, (1 - \alpha_t \alpha_{t-1}) \mathbf{I})$ 中采样的随机变量。根据重参数化技巧，这一分布的样本可以表示为 $\sqrt{1 - \alpha_t \alpha_{t-1}} \epsilon_{t-2}$ ，如公式(66)所示。

因此，我们已经推导出了 $q(x_t|x_0)$ 的高斯形式。此推导还可以被修改以得出描述 $q(x_{t-1}|x_0)$ 的高斯参数化形式。现在，知道 $q(x_t|x_0)$ 和 $q(x_{t-1}|x_0)$ 的形式后，我们可以通过代入贝叶斯公式展开来计算 $q(x_{t-1}|x_t, x_0)$ 的形式：

在这里插入图片描述

在公式(75)中， $C(x_t, x_0)$ 是一个与 $x_{t-1}$ 无关的常数项，由 $x_t$ 、 $x_0$ 和 $\alpha$ 值的组合计算得出；该常数项在公式(84)中被隐式返回，以完成平方形式的推导。

因此，我们已经证明，在每一步中， $x_{t-1} \sim q(x_{t-1}|x_t, x_0)$ 是服从正态分布的，其均值 $\mu_q(x_t, x_0)$ 是 $x_t$ 和 $x_0$ 的函数，而方差 $\Sigma_q(t)$ 是 $\alpha$ 系数的函数。这些 $\alpha$ 系数在每个时间步都是已知且固定的；它们要么在建模为超参数时被永久设置，要么被视为试图对其建模的网络的当前推断输出。根据公式(84)，我们可以将方差方程重写为 $\Sigma_q(t) = \sigma_q^2(t)\mathbf{I}$ ，其中：

$\sigma_q^2(t) = \frac{(1 - \alpha_t)(1 - \bar{\alpha}_{t-1})}{1 - \bar{\alpha}_t} \tag{85}$

为了使近似去噪转移步骤 $p_\theta(x_{t-1}|x_t)$ 尽可能接近真实去噪转移步骤 $q(x_{t-1}|x_t, x_0)$ ，我们同样可以将其建模为一个高斯分布。此外，由于所有 $\alpha$ 项在每个时间步上都是已知且固定的，我们可以直接将近似去噪转移步骤的方差构造为 $\Sigma_q(t) = \sigma_q^2(t)\mathbf{I}$ 。然而，由于 $p_\theta(x_{t-1}|x_t)$ 不以 $x_0$ 为条件，我们必须将其均值 $\mu_\theta(x_t, t)$ 参数化为 $x_t$ 的函数。

回忆一下，两高斯分布之间的KL散度为：

$D_{KL}(\mathcal{N}(x; \mu_x, \Sigma_x) \,||\, \mathcal{N}(y; \mu_y, \Sigma_y)) = \frac{1}{2} \left[ \log \frac{|\Sigma_y|}{|\Sigma_x|} - d + \text{tr}(\Sigma_y^{-1} \Sigma_x) + (\mu_y - \mu_x)^T \Sigma_y^{-1} (\mu_y - \mu_x) \right] \tag{86}$

我们需要推导以下公式： $D_{KL}(\mathcal{N}(x; \mu_x, \Sigma_x) \| \mathcal{N}(y; \mu_y, \Sigma_y)) = \frac{1}{2} \left[ \log \frac{|\Sigma_y|}{|\Sigma_x|} - d + \text{tr}(\Sigma_y^{-1} \Sigma_x) + (\mu_y - \mu_x)^T \Sigma_y^{-1} (\mu_y - \mu_x) \right].$

1. KL 散度的定义

KL 散度定义为： $D_{KL}(\mathcal{N}(x; \mu_x, \Sigma_x) \| \mathcal{N}(y; \mu_y, \Sigma_y)) = \int \mathcal{N}(x; \mu_x, \Sigma_x) \log \frac{\mathcal{N}(x; \mu_x, \Sigma_x)}{\mathcal{N}(x; \mu_y, \Sigma_y)} dx.$

$\mathcal{N}(x; \mu_x, \Sigma_x)$ ：分布 1 的概率密度函数。
$\mathcal{N}(x; \mu_y, \Sigma_y)$ ：分布 2 的概率密度函数。

2. 多元高斯分布的概率密度函数

多元高斯分布的概率密度函数为： $\mathcal{N}(x; \mu, \Sigma) = \frac{1}{\sqrt{(2\pi)^d |\Sigma|}} \exp\left( -\frac{1}{2} (x - \mu)^T \Sigma^{-1} (x - \mu) \right).$

$d$ ：变量 $x$ 的维度。
$|\Sigma|$ ：协方差矩阵的行列式，表示分布的范围大小。
$\Sigma^{-1}$ ：协方差矩阵的逆，表示分布的形状。

3. KL 散度公式展开

将高斯分布的公式代入 KL 散度定义： $D_{KL}(\mathcal{N}(x; \mu_x, \Sigma_x) \| \mathcal{N}(x; \mu_y, \Sigma_y)) = \int \mathcal{N}(x; \mu_x, \Sigma_x) \log \frac{\mathcal{N}(x; \mu_x, \Sigma_x)}{\mathcal{N}(x; \mu_y, \Sigma_y)} dx.$

分子和分母的概率密度函数分别为： $\mathcal{N}(x; \mu_x, \Sigma_x) = \frac{1}{\sqrt{(2\pi)^d |\Sigma_x|}} \exp\left( -\frac{1}{2} (x - \mu_x)^T \Sigma_x^{-1} (x - \mu_x) \right),$ $\mathcal{N}(x; \mu_y, \Sigma_y) = \frac{1}{\sqrt{(2\pi)^d |\Sigma_y|}} \exp\left( -\frac{1}{2} (x - \mu_y)^T \Sigma_y^{-1} (x - \mu_y) \right).$

因此，KL散度的积分为： $D_{KL} = \int \mathcal{N}(x; \mu_x, \Sigma_x) \log \frac{\frac{1}{\sqrt{(2\pi)^d |\Sigma_x|}} \exp\left( -\frac{1}{2} (x - \mu_x)^T \Sigma_x^{-1} (x - \mu_x) \right)}{\frac{1}{\sqrt{(2\pi)^d |\Sigma_y|}} \exp\left( -\frac{1}{2} (x - \mu_y)^T \Sigma_y^{-1} (x - \mu_y) \right)} dx.$

4. 对数部分展开

分解对数部分的分子和分母： $\log \frac{\mathcal{N}(x; \mu_x, \Sigma_x)}{\mathcal{N}(x; \mu_y, \Sigma_y)} = \log \frac{\frac{1}{\sqrt{(2\pi)^d |\Sigma_x|}}}{\frac{1}{\sqrt{(2\pi)^d |\Sigma_y|}}} + \log \frac{\exp\left( -\frac{1}{2} (x - \mu_x)^T \Sigma_x^{-1} (x - \mu_x) \right)}{\exp\left( -\frac{1}{2} (x - \mu_y)^T \Sigma_y^{-1} (x - \mu_y) \right)}.$

第一部分：常数项 $\log \frac{\frac{1}{\sqrt{(2\pi)^d |\Sigma_x|}}}{\frac{1}{\sqrt{(2\pi)^d |\Sigma_y|}}} = \log \sqrt{\frac{|\Sigma_y|}{|\Sigma_x|}} = \frac{1}{2} \log \frac{|\Sigma_y|}{|\Sigma_x|}.$

第二部分：指数项 $\log \frac{\exp\left( -\frac{1}{2} (x - \mu_x)^T \Sigma_x^{-1} (x - \mu_x) \right)}{\exp\left( -\frac{1}{2} (x - \mu_y)^T \Sigma_y^{-1} (x - \mu_y) \right)} = -\frac{1}{2} (x - \mu_x)^T \Sigma_x^{-1} (x - \mu_x) + \frac{1}{2} (x - \mu_y)^T \Sigma_y^{-1} (x - \mu_y).$

5. 将对数展开代入 KL 散度公式

KL 散度公式现在可以写为： $D_{KL} = \int \mathcal{N}(x; \mu_x, \Sigma_x) \left[ \frac{1}{2} \log \frac{|\Sigma_y|}{|\Sigma_x|} -\frac{1}{2} (x - \mu_x)^T \Sigma_x^{-1} (x - \mu_x) + \frac{1}{2} (x - \mu_y)^T \Sigma_y^{-1} (x - \mu_y) \right] dx.$

6. 分项计算 KL 散度

第一项：常数项 $\int \mathcal{N}(x; \mu_x, \Sigma_x) \frac{1}{2} \log \frac{|\Sigma_y|}{|\Sigma_x|} dx = \frac{1}{2} \log \frac{|\Sigma_y|}{|\Sigma_x|}.$

第二项： $\mu_x)^T \Sigma_x^{-1} (x - \mu_x)$ 的期望 在高斯分布 $\mathcal{N}(x; \mu_x, \Sigma_x)$ 中： $\mathbb{E}[(x - \mu_x)^T \Sigma_x^{-1} (x - \mu_x)] = d,$ 其中 $d$ 是高斯分布的维度。因此： $\int \mathcal{N}(x; \mu_x, \Sigma_x) \left[ -\frac{1}{2} (x - \mu_x)^T \Sigma_x^{-1} (x - \mu_x) \right] dx = -\frac{1}{2} d.$

第三项： $\mu_y)^T \Sigma_y^{-1} (x - \mu_y)$ 的期望 我们将 $\mu_y)^T \Sigma_y^{-1} (x - \mu_y)$ 展开： $\mu_y)^T \Sigma_y^{-1} (x - \mu_y) = (x - \mu_x + \mu_x - \mu_y)^T \Sigma_y^{-1} (x - \mu_x + \mu_x - \mu_y).$

展开后包含三项：

$\mathbb{E}[(x - \mu_x)^T \Sigma_y^{-1} (x - \mu_x)] = \text{tr}(\Sigma_y^{-1} \Sigma_x)$ 。
均值差项 $(\mu_x - \mu_y)^T \Sigma_y^{-1} (\mu_x - \mu_y)$ 。
交叉项的期望为 0。

综合起来： $\int \mathcal{N}(x; \mu_x, \Sigma_x) \frac{1}{2} (x - \mu_y)^T \Sigma_y^{-1} (x - \mu_y) dx = \frac{1}{2} \left[ \text{tr}(\Sigma_y^{-1} \Sigma_x) + (\mu_x - \mu_y)^T \Sigma_y^{-1} (\mu_x - \mu_y) \right].$

1. 积分和期望的关系
概率分布的期望定义是： $\mathbb{E}_{q(x)}[f(x)] = \int f(x) q(x) dx.$

$f (x)$ ：对随机变量 $x$ 的某个函数。
$q (x)$ ：概率密度函数，表示随机变量 $x$ 的分布。

这说明，对于任意函数 $f (x)$ ，其加权积分可以写成期望的形式。如果我们知道 $q (x)$ 是一个高斯分布，那么积分可以简化为高斯分布的性质。

应用到 KL 散度公式中 KL 散度公式包含积分： $D_{KL} = \int q(x) \log \frac{q(x)}{p(x)} dx.$ 其中， $q (x)$ 是一个高斯分布： $\mathcal{N}(x; \mu_x, \Sigma_x).$
任何积分项，例如： $\int q(x) (x - \mu_x)^T \Sigma_x^{-1} (x - \mu_x) dx,$ 都可以转换为期望： $\mathbb{E}_{q(x)} \left[(x - \mu_x)^T \Sigma_x^{-1} (x - \mu_x)\right].$

2. 积分到期望的具体例子

我们来看 KL 散度中第二项： $\int q(x) \left[ -\frac{1}{2} (x - \mu_x)^T \Sigma_x^{-1} (x - \mu_x) \right] dx.$

这可以转化为： $-\frac{1}{2} \mathbb{E}_{q(x)} \left[ (x - \mu_x)^T \Sigma_x^{-1} (x - \mu_x) \right].$

3. 高斯分布的性质：二次型的期望值

在高斯分布 $\mathcal{N}(x; \mu_x, \Sigma_x)$ 中，关于均值 $\mu_x$ 的二次型 $\mu_x)^T A (x - \mu_x)$ 的期望值有以下性质： $\mathbb{E}[(x - \mu_x)^T A (x - \mu_x)] = \text{tr}(A \Sigma_x),$ 其中 $A$ 是一个对称矩阵。

具体计算 对于 $\Sigma_x^{-1}$ ，可以得出： $\mathbb{E}[(x - \mu_x)^T \Sigma_x^{-1} (x - \mu_x)] = \text{tr}(\Sigma_x^{-1} \Sigma_x) = \text{tr}(I) = d.$

$d$ 是高斯分布的维度。

因此，积分结果为： $\int q(x) (x - \mu_x)^T \Sigma_x^{-1} (x - \mu_x) dx = d.$

4. 结果代入 KL 散度公式

将以上结果代入 KL 散度公式的第二项： $-\frac{1}{2} \int q(x) (x - \mu_x)^T \Sigma_x^{-1} (x - \mu_x) dx = -\frac{1}{2} d.$

5. 总结

为什么积分可以转化为期望？ 因为积分公式： $\int f(x) q(x) dx = \mathbb{E}_{q(x)}[f(x)],$ 本质上就是期望的定义，积分是以 $q (x)$ 为权重的加权和。

高斯分布的二次型积分 对于高斯分布 $\mathcal{N}(x; \mu_x, \Sigma_x)$ ，积分： $\int q(x) (x - \mu_x)^T A (x - \mu_x) dx,$ 等价于： $\mathbb{E}[(x - \mu_x)^T A (x - \mu_x)] = \text{tr}(A \Sigma_x).$

7. 合并结果

将所有项合并： $D_{KL} = \frac{1}{2} \left[ \log \frac{|\Sigma_y|}{|\Sigma_x|} - d + \text{tr}(\Sigma_y^{-1} \Sigma_x) + (\mu_y - \mu_x)^T \Sigma_y^{-1} (\mu_y - \mu_x) \right].$

总结

每一步都基于 KL 散度定义、密度函数展开和高斯分布的积分性质：

常数项： 对数项直接得出。
二次型期望： 高斯分布的性质提供简化。
均值差异： 展开二次型并结合积分性质。

在我们的情况下，如果我们可以使两个高斯分布的方差完全相等，那么优化KL散度项就简化为最小化两个分布均值之间的差异：

$\begin{aligned} \arg \min_\theta \, & D_{KL}(q(x_{t-1}|x_t, x_0) \,||\, p_\theta(x_{t-1}|x_t)) \\ &= \arg \min_\theta \, D_{KL}(\mathcal{N}(x_{t-1}; \mu_q, \Sigma_q(t)) \,||\, \mathcal{N}(x_{t-1}; \mu_\theta, \Sigma_q(t))) &\text{(87)} \\ &= \arg \min_\theta \, \frac{1}{2} \left[ \log \frac{|\Sigma_q(t)|}{|\Sigma_q(t)|} - d + \text{tr}(\Sigma_q(t)^{-1} \Sigma_q(t)) + (\mu_\theta - \mu_q)^T \Sigma_q(t)^{-1} (\mu_\theta - \mu_q) \right] &\text{(88)} \\ &= \arg \min_\theta \, \frac{1}{2} \left[ \log 1 - d + d + (\mu_\theta - \mu_q)^T \Sigma_q(t)^{-1} (\mu_\theta - \mu_q) \right] &\text{(89)} \\ &= \arg \min_\theta \, \frac{1}{2} \left[ (\mu_\theta - \mu_q)^T \Sigma_q(t)^{-1} (\mu_\theta - \mu_q) \right] &\text{(90)} \\ &= \arg \min_\theta \, \frac{1}{2} \left[ (\mu_\theta - \mu_q)^T (\sigma_q^2(t)\mathbf{I})^{-1} (\mu_\theta - \mu_q) \right] &\text{(91)} \\ &= \arg \min_\theta \, \frac{1}{2\sigma_q^2(t)} \left\| \mu_\theta - \mu_q \right\|_2^2 &\text{(92)} \end{aligned}$

$\text{tr}(\Sigma_q(t)^{-1} \Sigma_q(t)) = \text{tr}(I) = d.$

$\text{tr}(\cdot)$ 是 矩阵的迹（trace）的符号。

1. 什么是迹？

一个方阵 $A$ 的迹定义为其主对角线元素的和。数学上表示为： $\text{tr}(A) = \sum_{i=1}^n A_{ii},$ 其中：

$A_{ii}$ 是矩阵 $A$ 的第 $i$ 行第 $i$ 列元素。
$n$ 是矩阵 $A$ 的维度。

例子： 若矩阵 $A$ 为： $\begin{bmatrix} 2 & 1 & 3 \\ 0 & 4 & 5 \\ 6 & 7 & 8 \end{bmatrix},$ 则 $\text{tr}(A)$ 为主对角线元素之和： $\text{tr}(A) = 2 + 4 + 8 = 14.$

2. 迹的性质

可加性： $\text{tr}(A + B) = \text{tr}(A) + \text{tr}(B).$

标量因子： $\text{tr}(cA) = c \, \text{tr}(A),$ 其中 $c$ 是一个常数。

迹的循环性质： 对于两个矩阵 $A$ 和 $B$ ，如果 $A B$ 和 $B A$ 都定义良好（即矩阵的维度兼容），则： $\text{tr}(AB) = \text{tr}(BA).$
这在推导高斯分布的 KL 散度时非常重要。

迹与矩阵的特征值： $\text{tr}(A)$ 等于矩阵 $A$ 所有特征值的和。

3. 迹在 KL 散度中的作用

在高斯分布的 KL 散度公式中，迹用于衡量两个分布在协方差矩阵上的差异： $D_{KL}(\mathcal{N}(x; \mu_q, \Sigma_q) \| \mathcal{N}(x; \mu_p, \Sigma_p)) = \frac{1}{2} \left[ \log \frac{|\Sigma_p|}{|\Sigma_q|} - d + \text{tr}(\Sigma_p^{-1} \Sigma_q) + (\mu_p - \mu_q)^T \Sigma_p^{-1} (\mu_p - \mu_q) \right].$

$\text{tr}(\Sigma_p^{-1} \Sigma_q)$ ：表示协方差矩阵 $\Sigma_q$ 和 $\Sigma_p$ 在空间变换上的关系。
如果 $\Sigma_p = \Sigma_q$ ，则 $\text{tr}(\Sigma_p^{-1} \Sigma_q) = \text{tr}(I) = d$ 。

4. 直观理解迹的作用

空间几何解释：

矩阵的迹反映了该矩阵在空间中拉伸变换的规模。
在 KL 散度中， $\text{tr}(\Sigma_p^{-1} \Sigma_q)$ 衡量了从 $\Sigma_p$ 到 $\Sigma_q$ 的变换是否一致。

在优化中的意义：

当 $\Sigma_q \approx \Sigma_p$ 时，迹项会趋近于 $d$ ，表示两个分布的协方差矩阵非常接近。

这里我们将 $\mu_q$ 简写为 $\mu_q(x_t, x_0)$ ，将 $\mu_\theta$ 简写为 $\mu_\theta(x_t, t)$ 以简化表达。换句话说，我们希望优化一个 $\mu_\theta(x_t, t)$ ，使其匹配 $\mu_q(x_t, x_0)$ ，而根据我们推导的公式(84)， $\mu_q(x_t, x_0)$ 的形式为：

$\mu_q(x_t, x_0) = \frac{\sqrt{\alpha_t} (1 - \bar{\alpha}_{t-1}) x_t + \sqrt{\bar{\alpha}_{t-1}} (1 - \alpha_t) x_0}{1 - \bar{\alpha}_t} \tag{93}$

由于 $\mu_\theta(x_t, t)$ 同样以 $x_t$ 为条件，我们可以通过将其设置为以下形式，使其与 $\mu_q(x_t, x_0)$ 尽可能接近：

$\mu_\theta(x_t, t) = \frac{\sqrt{\alpha_t} (1 - \bar{\alpha}_{t-1}) x_t + \sqrt{\bar{\alpha}_{t-1} }(1 - \alpha_t) \hat{x}_\theta(x_t, t)}{1 - \bar{\alpha}_t} \tag{94}$

其中， $\hat{x}_\theta(x_t, t)$ 由一个神经网络参数化，该神经网络试图从噪声图像 $x_t$ 和时间索引 $t$ 中预测 $x_0$ 。然后，优化问题简化为：

$\begin{aligned} \arg \min_\theta \, & D_{KL}(q(x_{t-1}|x_t, x_0) \,||\, p_\theta(x_{t-1}|x_t)) \\ &= \arg \min_\theta \, D_{KL}(\mathcal{N}(x_{t-1}; \mu_q, \Sigma_q(t)) \,||\, \mathcal{N}(x_{t-1}; \mu_\theta, \Sigma_q(t))) &\text{(95)} \\ &= \arg \min_\theta \, \frac{1}{2\sigma_q^2(t)} \Bigg[\left\| \frac{\sqrt{\alpha_t}(1 - \bar{\alpha}_{t-1}) x_t + \sqrt{\bar{\alpha}_{t-1}}(1 - \alpha_t) \hat{x}_\theta(x_t, t)}{1 - \bar{\alpha}_t} - \frac{\sqrt{\alpha_t}(1 - \bar{\alpha}_{t-1}) x_t + \sqrt{\bar{\alpha}_{t-1}}(1 - \alpha_t) x_0}{1 - \bar{\alpha}_t} \right\|_2^2 \Bigg] &\text{(96)} \\ &= \arg \min_\theta \, \frac{1}{2\sigma_q^2(t)} \Bigg[ \left\| \frac{\sqrt{\bar{\alpha}_{t-1}}(1 - \alpha_t)\hat{x}_\theta(x_t, t)}{1 - \bar{\alpha}_t}- \frac{\sqrt{\bar{\alpha}_{t-1}}(1 - \alpha_t)x_0}{1 - \bar{\alpha}_t} \right\|_2^2 \Bigg] &\text{(97)} \\ &= \arg \min_\theta \, \frac{1}{2\sigma_q^2(t)} \Bigg[ \left\| \frac{\sqrt{\bar{\alpha}_{t-1}}(1 - \alpha_t)}{1 - \bar{\alpha}_t} \left( \hat{x}_\theta(x_t, t) - x_0 \right) \right\|_2^2 \Bigg] &\text{(98)} \\ &= \arg \min_\theta \, \frac{1}{2\sigma_q^2(t)} \frac{\bar{\alpha}_{t-1}(1 - \alpha_t)^2}{(1 - \bar{\alpha}_t)^2 } \Big[ \left\| \hat{x}_\theta(x_t, t) - x_0 \right\|_2^2 \Big]&\text{(99)} \end{aligned}$

$\left\|\cdot\right\|^2_2是什么？$

因此，优化VDM归结为学习一个神经网络，从任意加噪的图像版本中预测原始的真实图像 [5]。此外，最小化我们推导出的ELBO目标（公式58）中关于所有噪声水平的求和项，可以通过最小化关于所有时间步的期望来近似实现：

$\arg \min_\theta \, \mathbb{E}_{t \sim \mathcal{U}\{2, T\}} \left[ \mathbb{E}_{q(x_t|x_0)} \left[ D_{KL}(q(x_{t-1}|x_t, x_0) \,||\, p_\theta(x_{t-1}|x_t)) \right] \right] \tag{100}$

这可以通过对时间步的随机采样进行优化。

论文笔记（六十三）Understanding Diffusion Models: A Unified Perspective（三）

Understanding Diffusion Models: A Unified Perspective（三）

文章概括

相关文章：

论文笔记（六十三）Understanding Diffusion Models: A Unified Perspective（三）

利用机器学习创建基于位置的推荐程序

每日一题 429. N 叉树的层序遍历

AIP-132 标准方法：List

CSAPP学习：前言

【统计的思想】假设检验（二）

KNN算法学习实践

数据可视化的图表

动手学深度学习-卷积神经网络-3填充和步幅

【JS|第28期】new Event()：前端事件处理的利器

Spring Boot 中的事件发布与监听：深入理解 ApplicationEventPublisher（附Demo）

【Spring】Spring启示录

ospf动态路由配置，cost路径调整，ospf认证实验

在Rust应用中访问.ini格式的配置文件

批量处理多个模型的预测任务

Java 编程初体验

element-plus 的table section如何实现单选

【JavaEE进阶】图书管理系统 - 壹

牛客周赛 Round 77 题解

Mybatis配置文件详解

《深度揭秘：TPU张量计算架构如何重塑深度学习运算》

Java基础知识总结（二十二）--List接口

[STM32 - 野火] - - - 固件库学习笔记 - - -十二.基本定时器

算法随笔_27:最大宽度坡

无公网IP 外网访问本地部署 llamafile 大语言模型

使用PC版本剪映制作照片MV

搭建 docxify 静态博客教程

汽车OEMs一般出于什么目的来自定义Autosar CP一些内容

Vue.js Vuex 模块化管理

分布式光纤应变监测是一种高精度、分布式的监测技术