LLM Questions 2025
2025 年最新大模型面试题汇总,涵盖 RAG、Transformer、训练、微调、深度学习等
Overview
辉少整理的 2025 年大模型面试题,覆盖了大语言模型技术的完整栈。从 Transformer 基础原理到 RLHF 训练,从 RAG 架构到多模态应用,是一份系统化的面试准备资料。
Key Facts / Claims
一、RAG (检索增强生成)
- 内容缺失、排名问题、上下文整合限制
- RAG-Fusion 技术:多查询生成 + 重新排序
- 索引优化、数据优化策略
- 未来发展方向
二、Transformer 专题
基础原理 (21 题) - 多头注意力:多子空间表征集成 - Q/K 不同权重矩阵:非对称性建模 - 点积 vs 加法注意力:硬件效率 - Scaled Attention:梯度稳定(除以 \(\sqrt{d_k}\)) - Padding Mask:逻辑阻断 - 多头降维:计算量守恒 - Encoder/Decoder 结构 - 位置编码:\(\sqrt{d_{model}}\) 缩放、正弦编码 - 残差结构:梯度高速公路 - LayerNorm vs BatchNorm:序列长度无关性 - FFN:Key-Value 记忆网络 - Cross-Attention:Encoder-Decoder 交互 - 并行化:Encoder 完全并行,Decoder 训练可并行 - Tokenization:BPE、WordPiece、BBPE、SentencePiece - 学习率:Warmup + Inverse Square Root Decay
训练与优化 (19 题) - QKV 来源:随机初始化的可学习参数 - FFN 训练内容:模式匹配 + 内容输出 - 复杂度分析:Embedding \(O(1)\), Attention \(O(n^2d)\), FFN \(O(nd^2)\) - 位置编码的相对位置:线性变换属性 - LayerNorm 假设:层内特征同分布 - 降低 Embedding 参数:ALBERT 分解、Input-Output Tying - 降低 FFN 参数:Weight Sharing、MoE - 深度过深:梯度消失、秩崩溃、过度平滑
应用与创新 (29 题) - Zero-shot Learning:NLI 转换、Prompting、CLIP 对齐 - Embedding 相似度比较:CKA、Procrustes Analysis - 知识蒸馏:LSTM 模仿 BERT - BERT 泛化限制:位置外推性、领域漂移、伪相关性 - GPT 缺陷:单向注意力,无法利用下文 - MLM 缺陷:预训练-微调差异、独立性假设 - 解决方案:ELECTRA、SpanBERT、XLNet
三、大模型 (LLMs) 基础与进阶
- 主流开源模型:LLaMA、Qwen、ChatGLM、DeepSeek
- Decoder-only 原因:生成能力、效率、Scaling Laws
- 涌现能力:规模效应
- 复读机问题:Unlikelihood Training、Repetition Penalty、Contrastive Search
- 长文本处理:位置编码外推、稀疏注意力
四、大模型微调
- 全参数微调显存估算
- SFT 数据构建、Continue Pretrain
- 灾难性遗忘缓解
- Chat vs Base 选择
- 词表扩增必要性
- Loss 突刺原因和解决
- Batch Size 设置
五、深度学习基础
- LN vs BN 原理和区别
- 交叉熵推导、代码手写
- Sigmoid、Softmax、ReLU
- 多头注意力手写
- Adam 优化器原理
- AUC 计算
- KL 散度
- 梯度消失/爆炸缓解
- L1/L2 正则区别
- Dropout 原理
六、多模态 / NLP 算法
- DPO 算法原理
- GPT vs BERT 结构和参数量
- Flash Attention 原理
- BERT 预训练任务
- FP16 量化策略
- QFormer 原理
- 位置编码:RoPE、ALiBi
- CLIP 原理、InfoNCE Loss
- BLIP2 架构
- LLaVA 和 LLaMA 区别
- 大模型幻觉
- 混合精度训练
- RMSNorm 手写
- DeepSpeed 原理
- PEFT 微调
- RAG 流程
七、GQA (Grouped-Query Attention) 深度分析
- 问题:长文本推理时 KV Cache 的 Memory Bound
- 方案:Query Head 分组共享 KV Head
- 数学:\(H_q=32, H_{kv}=8, G=4\),通过 Broadcasting 复制 KV
- 效果:KV Cache 读取降低 4 倍,吞吐量提升近 4 倍
- 几何解释:低秩约束,Query 间语义冗余使信息损失极小
- 工程:PagedAttention 中减少 Page Table 开销,FlashAttention 中 SRAM 复用
Related
- [[transformer]] — 基础架构详解
- [[flash-attention]] — 注意力优化
- [[llm-rl-algorithms]] — PPO/DPO/GRPO
- [[deepseek]] — 开源模型系列
- [[qwen-series]] — 通义千问系列
- [[deepspeed]] — 训练优化
- [[quantization]] — 模型量化
- [[interview-notes-comprehensive]] — 面试笔记综合索引
Sources
- LLM Questions 2025 — /mnt/c/Users/gyh14/WorkSpace/Personal-Notes/Notes/LLM Questions.md