U-Net

编码器-解码器架构的经典设计，下采样与上采样的必要性与替代方案。

Overview

U-Net 是计算机视觉领域的里程碑架构，最初为医学图像分割设计。其核心是编码器-解码器结构：编码器通过下采样提取多尺度语义特征，解码器通过上采样恢复空间分辨率，并通过 Skip Connection 融合高低层特征。

辉少的博客探讨了一个重要问题：下采样和上采样是否总是必要的？

空洞卷积（Dilated Convolution）
- 公式：$f’ = f *_d W$，空洞率 $d$ 控制感受野
- 优势：不降低分辨率即可扩大感受野
- 应用：DeepLab 系列语义分割
多尺度卷积
- 同一层使用多个卷积核尺寸 $k_i$
- $f_{multi} = \sum_i \text{Conv}_{k_i}(f)$
- 优势：无需下采样即可捕获多尺度信息
注意力机制
- $f_{attn} = \sigma(\text{Conv}(f)) \odot f$
- 优势：保持分辨率的同时增强重要区域