Skip to content

衍微的知识库

Interview Notes Comprehensive

Interview Notes Comprehensive

辉少 LLM Interview Day1-Day14 的综合索引

Overview

辉少的面试笔记覆盖了大语言模型的完整技术栈，从基础架构到训练优化，从量化部署到多模态应用。以下按主题分类整理。

Day1: Transformer 基础

Transformer 基本流程
Transformer vs CNN/RNN
为什么训练不是自回归的（Teacher Forcing）
Adaptive Softmax
自注意力 vs 注意力
LLM 上下文存储

Day2: 训练与优化

PPO 详解
DPO vs PPO vs GRPO
GRPO vs PPO 核心区别
LoRA 与全量微调
MoE 路由坍缩
AdamW vs Adam vs SGD
DeepSeek MLA
为什么都是 Decoder-only

Day3: 数据与训练

SFT 为什么还需要 RLHF
DeepSpeed ZeRO 三阶段
Prefix Tuning vs P-Tuning
Prompt Tuning vs Instruction Tuning
多模态预训练原理
Qwen-VL 详解

Day4: 注意力优化

Flash Attention 思想
PagedAttention 思想

Day5: 量化与多模态

AWQ 量化详解
Weight-only 量化
BLIP 详解
CLIP 详解

Day6: 生成模型

Flow Matching 详解
FLUX 详解
Stable Diffusion 3 架构
CogVideoX 模型结构
BLIP2
DPO 训练中 reward 下降问题
PPO 超参数调优

Day7-Day8: 进阶主题

DDPM
Score-based Models
Transformer 核心原理
大模型训练优化策略
Tokenizer 工作机制
LoRA/QLoRA/Adapter 微调方法

Day10-Day11: 多模态与训练

Cross-Attention Adapter
多模态 LLM 预训练
稀疏 Attention 与视频 Attention
ChatGPT 训练步骤
LLM 损失函数
QLoRA 详解
位置编码（RoPE）

Day12-Day14: RL 与工程

GRPO 熵坍缩、长文本优化、梯度消失
RL 奖励函数 vs 调参
MoE 工程实现
为什么 LLM 后训练偏向 Policy-Based RL
RLHF 流程
奖励模型训练
Cold Start 详解
GRPO 详解
SFT Cross Entropy 推导
Transformer FFN 必要性
微调全流程（预训练→SFT→Cold Start→RL）
GRPO 生成长回答的原理

DeepSeek 系列

DeepSeek V1
DeepSeek V2
DeepSeek MoE

Qwen 系列

Qwen1.0
Qwen1.5
Qwen2.0（Dense + MoE）
Qwen3（MoE + Thinking Mode）
Qwen-VL / Qwen-VL2
Gated Attention

实战项目

MCP Agent（车载语音助手）
Emotion Model
GRPO-Global
MRI-PET
Next-Next Token
Tesla 问答系统
澳洲电网数据生成

Sources

LLM Interview 笔记 — 104 个 markdown 文件