Hui

Hui

We create the world, we change the world

SFT vs RLHF

SFT vs RLHF

为什么有 SFT 还需要 RLHF：从行为克隆到全局价值寻优的本质差异

Overview

SFT（监督微调）和 RLHF（基于人类反馈的强化学习）是大语言模型对齐的两个阶段。辉少的面试笔记从统计学本质、控制论视角、系统动力学三个维度深入剖析了二者的差异。

Key Facts / Claims

SFT 的本质：行为克隆

目标：最小化模型分布与经验分布的 KL 散度
数学：$\mathcal{L}{SFT} = -\mathbb{E}[\sum{t=1}^T \log \pi_\theta(y_t x, y_{<t})]$
机制：Token-level 局部贪婪匹配，被动执行「照猫画虎」
局限：解空间受限于训练数据支撑集，缺乏自主探索能力

RLHF 的本质：全局价值寻优

目标：最大化轨迹预期累积回报
数学：$\max_\theta \mathbb{E}[r_\phi(x,y) - \beta D_{KL}(\pi_\theta \pi_{SFT})]$
机制：Sequence-level 价值评估，允许在线探索
优势：通过 GAE 实现稀疏动态学分分配

核心差异

维度	SFT	RLHF
优化目标	局部概率最大化	全局回报最大化
探索能力	插值泛化（数据内）	外推涌现（超越人类）
暴露偏差	有（教师强制）	无（在线采样）
学分分配	均匀（所有 token 等权）	动态（优势函数）
主要风险	分布外失效	奖励劫持

为什么需要 RLHF

消除暴露偏差：训练时基于真实前缀 vs 推理时基于自身生成前缀
稀疏学分分配：关键 token（连词、算子）应获得更高权重
超越人类演示：探索数据集中不存在的高阶解答路径
长文本连贯性：在线采样使长序列生成更鲁棒

[[llm-rl-algorithms]] — PPO/DPO/GRPO 具体实现
[[deepseek]] — DeepSeek-R1 的 RL 训练流程
[[grpo-global]] — 辉少对 GRPO 的改进
[[transformer]] — 基础架构（Teacher Forcing）
[[external-blogs]] — Lilian Weng 的 Reward Hacking 文章

Counter-arguments & Data Gaps

RLHF 的奖励模型本身可能有偏差
Goodhart’s Law：过度优化奖励导致退化
SFT + RLHF 是否是最佳组合？Direct Preference Optimization 提供了替代路径

Sources

有 SFT 为什么还需要 RLHF — 面试笔记 Day3