Quantization

大语言模型量化技术：AWQ、GPTQ、QLoRA 等方法的原理与对比

Overview

量化是将大语言模型从高精度（FP16/FP32）转换为低精度（INT8/INT4）表示的技术，用于减少显存占用和提升推理速度。辉少的面试笔记详细解释了 AWQ（Activation-aware Weight Quantization）的核心原理。

核心发现：权重的重要性不取决于权重本身的数值大小，而是取决于它所处理的输入信号（激活值）的大小。

数学机制：

引入缩放系数 s（针对每个输入通道）： $Y = (X \cdot \text{diag}(s)^{-1}) \cdot (\text{diag}(s) \cdot W)$
激活侧缩小：X’ = X / s
权重侧放大：W’ = W · s
对放大后的权重进行量化：$Q(W’) = \text{Int4}(W \cdot s)$

技术优势：

方法	核心思想	是否需要梯度	速度	精度
RTN	四舍五入到最近值	否	最快	最低
GPTQ	利用 Hessian 矩阵逐层量化	否	中等	高
AWQ	激活感知，保护重要权重	否	快	高
QLoRA	量化 + LoRA 微调	是	慢	最高