大模型训练 概述 大语言模型的训练方法、优化策略和对齐技术。 文章列表 llm-rl-algorithms — PPO、DPO、GRPO 对比 sft-vs-rlhf — SFT 与 RLHF 的本质差异 deepspeed — ZeRO 三阶段显存优化 quantization — AWQ、GPTQ、QLoRA 量化方法 相关主题 深度学习 生成模型 模型系列