Skip to content

衍微的知识库

推理优化

推理优化

概述

大模型推理阶段的显存管理、计算优化、低精度计算和部署技术。

文章列表

flash-attention — GPU 注意力 IO 优化
pagedattention — vLLM 的显存分页管理
quantization — AWQ、GPTQ、QLoRA 量化方法
floating-point — FP16/BF16 低精度浮点格式
gemm — 通用矩阵乘法与计算优化

相关主题