U-Net
U-Net
编码器-解码器架构的经典设计,下采样与上采样的必要性与替代方案。
Overview
U-Net 是计算机视觉领域的里程碑架构,最初为医学图像分割设计。其核心是编码器-解码器结构:编码器通过下采样提取多尺度语义特征,解码器通过上采样恢复空间分辨率,并通过 Skip Connection 融合高低层特征。
辉少的博客探讨了一个重要问题:下采样和上采样是否总是必要的?
Key Facts / Claims
标准 U-Net 结构
- 编码器(下采样路径):池化或步幅卷积逐步缩小特征图,增大感受野
- 解码器(上采样路径):反卷积或插值恢复分辨率
- Skip Connection:将编码器特征直接拼接到解码器,保留细节信息
下采样/上采样的代价
- 细节丢失:空间分辨率降低导致边界模糊
- 计算开销:多次重采样增加内存和计算负担
- 内部碎片:特征图尺寸变化带来的内存不连续
替代方案
- 空洞卷积(Dilated Convolution)
- 公式:$f’ = f *_d W$,空洞率 $d$ 控制感受野
- 优势:不降低分辨率即可扩大感受野
- 应用:DeepLab 系列语义分割
- 多尺度卷积
- 同一层使用多个卷积核尺寸 $k_i$
- $f_{multi} = \sum_i \text{Conv}_{k_i}(f)$
- 优势:无需下采样即可捕获多尺度信息
- 注意力机制
- $f_{attn} = \sigma(\text{Conv}(f)) \odot f$
- 优势:保持分辨率的同时增强重要区域
何时保留下采样
- 需要极大感受野的全局理解任务
- 计算资源充足、对精度要求不极端的场景
- 经典 U-Net 在大多数分割任务中仍表现稳健
Related
- [[diffusion-model]] — U-Net 是 DDPM 的默认骨干网络
- [[flow-matching]] — 生成模型中的特征提取同样面临分辨率权衡
- [[flash-attention]] — 注意力机制作为 U-Net 的替代/补充
Sources
- U-Net中的下采样和上采样运算符并不总是必要的 — 辉少的博客原文