U-Net

编码器-解码器架构的经典设计,下采样与上采样的必要性与替代方案。

Overview

U-Net 是计算机视觉领域的里程碑架构,最初为医学图像分割设计。其核心是编码器-解码器结构:编码器通过下采样提取多尺度语义特征,解码器通过上采样恢复空间分辨率,并通过 Skip Connection 融合高低层特征。

辉少的博客探讨了一个重要问题:下采样和上采样是否总是必要的?

Key Facts / Claims

标准 U-Net 结构

  • 编码器(下采样路径):池化或步幅卷积逐步缩小特征图,增大感受野
  • 解码器(上采样路径):反卷积或插值恢复分辨率
  • Skip Connection:将编码器特征直接拼接到解码器,保留细节信息

下采样/上采样的代价

  • 细节丢失:空间分辨率降低导致边界模糊
  • 计算开销:多次重采样增加内存和计算负担
  • 内部碎片:特征图尺寸变化带来的内存不连续

替代方案

  1. 空洞卷积(Dilated Convolution)
    • 公式:$f’ = f *_d W$,空洞率 $d$ 控制感受野
    • 优势:不降低分辨率即可扩大感受野
    • 应用:DeepLab 系列语义分割
  2. 多尺度卷积
    • 同一层使用多个卷积核尺寸 $k_i$
    • $f_{multi} = \sum_i \text{Conv}_{k_i}(f)$
    • 优势:无需下采样即可捕获多尺度信息
  3. 注意力机制
    • $f_{attn} = \sigma(\text{Conv}(f)) \odot f$
    • 优势:保持分辨率的同时增强重要区域

何时保留下采样

  • 需要极大感受野的全局理解任务
  • 计算资源充足、对精度要求不极端的场景
  • 经典 U-Net 在大多数分割任务中仍表现稳健
  • [[diffusion-model]] — U-Net 是 DDPM 的默认骨干网络
  • [[flow-matching]] — 生成模型中的特征提取同样面临分辨率权衡
  • [[flash-attention]] — 注意力机制作为 U-Net 的替代/补充

Sources