Skip to content

衍微的知识库

大模型训练

大模型训练

概述

大语言模型的训练方法、优化策略和对齐技术。

文章列表

llm-rl-algorithms — PPO、DPO、GRPO 对比
sft-vs-rlhf — SFT 与 RLHF 的本质差异
deepspeed — ZeRO 三阶段显存优化
quantization — AWQ、GPTQ、QLoRA 量化方法

相关主题