Skip to content

衍微的知识库

深度学习

深度学习

概述

神经网络架构、注意力机制、激活函数、矩阵计算优化等核心技术。

文章列表

transformer — 自注意力序列建模架构
flash-attention — GPU 注意力 IO 优化
infini-attention — 无限长序列注意力
activation-functions — Sigmoid 到 GELU 的演进与选择
unet — 编码器-解码器架构与下采样替代方案
gemm — 通用矩阵乘法与深度学习计算优化
floating-point — FP16/BF16 低精度浮点格式

相关主题