Skip to content

衍微的知识库

Diffusion Model

Diffusion Model

通过前向加噪和反向去噪学习数据分布的生成模型，涵盖 DDPM、Score Matching、SDE 统一视角

Overview

扩散模型是当前最强大的生成模型之一。辉少的博客从三个层次覆盖了扩散模型：DDPM 的离散推导、DDPM 与 Score Matching 的统一（SDE 视角）、以及具体实现细节。核心思想是通过可逆的随机过程将数据分布转化为高斯分布，再学习反向过程恢复数据。

Key Facts / Claims

DDPM 核心推导

ELBO 分解： $\(L_{\text{VLB}} = D_{KL}(q(x_T|x_0)||p(x_T)) + \sum_{t=2}^T D_{KL}(q(x_{t-1}|x_t,x_0)||p_\theta(x_{t-1}|x_t)) - \log p_\theta(x_0|x_1)\)$
后验分布（高斯闭式）： $\(q(x_{t-1}|x_t,x_0) = \mathcal{N}(x_{t-1}; \tilde{\mu}_t(x_t,x_0), \tilde{\beta}_t I)\)$ $\(\tilde{\mu}_t = \frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t} x_t + \frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t} x_0\)$
噪声预测目标： $\(L_{\text{simple}} = \mathbb{E}_{t,x_0,\epsilon}[||\epsilon - \epsilon_\theta(\sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon, t)||^2]\)$

DDPM 与 Score Matching 统一

VP-SDE（DDPM 连续极限）：\(dX_t = -\frac{1}{2}\beta(t)X_t dt + \sqrt{\beta(t)}dW_t\)
VE-SDE（NCSN/EDM）：\(dX_t = \sqrt{\frac{d}{dt}\sigma^2(t)}dW_t\)
重参数化：\(x_t = \alpha(t)x_0 + \sigma(t)\epsilon\)
Score 与噪声的等价：\(s_\theta(x_t,t) = -\frac{\epsilon_\theta(x_t,t)}{\sigma(t)}\)

反向动力学

反向 SDE：\(dX_t = [f - g^2\nabla\log p_t]dt + g d\bar{W}_t\)
概率流 ODE（确定性）：\(\frac{dX_t}{dt} = f - \frac{1}{2}g^2\nabla\log p_t\)

从 \(x_t\) 恢复 \(x_0\)

VP：\(\hat{x}_0 = \frac{x_t - \sigma\hat{\epsilon}_\theta}{\alpha}\)
VE：\(\hat{x}_0 = x_t - \sigma\hat{\epsilon}_\theta\)

[[vae]] — 另一大潜变量生成模型
[[transformer]] — 扩散模型中常用的骨干网络
[[flash-attention]] — 长序列训练时的注意力优化
[[flow-matching]] — 另一种生成模型训练范式（速度场回归）
[[kl-divergence]] — ELBO 中的核心组件
[[external-blogs]] — Yang Song 的 Score Matching 博客

Counter-arguments & Data Gaps

采样速度仍是瓶颈（需要多步去噪）
与 GAN、Flow-based 模型的全面比较
条件生成（classifier-free guidance）的理论分析

Sources

DDPM 数学推导 — 2025-12-15
DDPM 与 Score Matching 的统一推导 — 2025-07-29
DiffusionModel — 未标注日期