VAE
VAE
变分自编码器:通过潜变量和变分推断学习数据分布的生成模型
Overview
VAE(Variational Autoencoder)是深度生成模型的奠基工作之一。与自回归模型和 GAN 不同,VAE 通过引入潜变量 $z$ 和变分推断,将生成问题转化为优化 ELBO(证据下界)。
Key Facts / Claims
核心思想
-
数据 $x$ 由潜变量 $z$ 通过 Decoder $p_\theta(x z)$ 生成 -
后验 $p(z x)$ 难以计算,用变分分布 $q_\phi(z x)$ 近似 -
优化 ELBO:$\log p(x) \geq \mathbb{E}{q\phi(z x)}[\log p_\theta(x z)] - D_{KL}(q_\phi(z x) p(z))$
ELBO 的两项
-
重构项:$\mathbb{E}[\log p_\theta(x z)]$ — 解码质量 -
KL 项:$D_{KL}(q_\phi(z x) p(z))$ — 近似后验与先验的匹配
重参数化技巧
- $z = \mu + \sigma \odot \epsilon$,其中 $\epsilon \sim \mathcal{N}(0,I)$
- 使梯度能反向传播通过采样操作
与扩散模型的关系
- VAE 的 Encoder-Decoder 结构启发了扩散模型的设计
- 扩散模型可视为多步 VAE,每一步去噪相当于一次解码
- VAE 的 KL 项与扩散模型 ELBO 中的 KL 项数学形式相同
Related
- [[diffusion-model]] — 多步去噪的扩展
- [[kl-divergence]] — ELBO 中的核心组件
- [[machine-learning-basics]] — 概率基础
- [[flow-matching]] — 另一种生成模型范式
- [[external-blogs]] — Yang Song 的生成模型博客
Counter-arguments & Data Gaps
- VAE 生成质量通常不如扩散模型和 GAN
- 后验塌陷(posterior collapse):Decoder 忽略潜变量
- 与 Flow-based 模型的比较
Sources
- vae — 未标注日期