Skip to content

LLM Questions 2025

2025 年最新大模型面试题汇总,涵盖 RAG、Transformer、训练、微调、深度学习等

Overview

辉少整理的 2025 年大模型面试题,覆盖了大语言模型技术的完整栈。从 Transformer 基础原理到 RLHF 训练,从 RAG 架构到多模态应用,是一份系统化的面试准备资料。

Key Facts / Claims

一、RAG (检索增强生成)

  • 内容缺失、排名问题、上下文整合限制
  • RAG-Fusion 技术:多查询生成 + 重新排序
  • 索引优化、数据优化策略
  • 未来发展方向

二、Transformer 专题

基础原理 (21 题) - 多头注意力:多子空间表征集成 - Q/K 不同权重矩阵:非对称性建模 - 点积 vs 加法注意力:硬件效率 - Scaled Attention:梯度稳定(除以 \(\sqrt{d_k}\)) - Padding Mask:逻辑阻断 - 多头降维:计算量守恒 - Encoder/Decoder 结构 - 位置编码:\(\sqrt{d_{model}}\) 缩放、正弦编码 - 残差结构:梯度高速公路 - LayerNorm vs BatchNorm:序列长度无关性 - FFN:Key-Value 记忆网络 - Cross-Attention:Encoder-Decoder 交互 - 并行化:Encoder 完全并行,Decoder 训练可并行 - Tokenization:BPE、WordPiece、BBPE、SentencePiece - 学习率:Warmup + Inverse Square Root Decay

训练与优化 (19 题) - QKV 来源:随机初始化的可学习参数 - FFN 训练内容:模式匹配 + 内容输出 - 复杂度分析:Embedding \(O(1)\), Attention \(O(n^2d)\), FFN \(O(nd^2)\) - 位置编码的相对位置:线性变换属性 - LayerNorm 假设:层内特征同分布 - 降低 Embedding 参数:ALBERT 分解、Input-Output Tying - 降低 FFN 参数:Weight Sharing、MoE - 深度过深:梯度消失、秩崩溃、过度平滑

应用与创新 (29 题) - Zero-shot Learning:NLI 转换、Prompting、CLIP 对齐 - Embedding 相似度比较:CKA、Procrustes Analysis - 知识蒸馏:LSTM 模仿 BERT - BERT 泛化限制:位置外推性、领域漂移、伪相关性 - GPT 缺陷:单向注意力,无法利用下文 - MLM 缺陷:预训练-微调差异、独立性假设 - 解决方案:ELECTRA、SpanBERT、XLNet

三、大模型 (LLMs) 基础与进阶

  • 主流开源模型:LLaMA、Qwen、ChatGLM、DeepSeek
  • Decoder-only 原因:生成能力、效率、Scaling Laws
  • 涌现能力:规模效应
  • 复读机问题:Unlikelihood Training、Repetition Penalty、Contrastive Search
  • 长文本处理:位置编码外推、稀疏注意力

四、大模型微调

  • 全参数微调显存估算
  • SFT 数据构建、Continue Pretrain
  • 灾难性遗忘缓解
  • Chat vs Base 选择
  • 词表扩增必要性
  • Loss 突刺原因和解决
  • Batch Size 设置

五、深度学习基础

  • LN vs BN 原理和区别
  • 交叉熵推导、代码手写
  • Sigmoid、Softmax、ReLU
  • 多头注意力手写
  • Adam 优化器原理
  • AUC 计算
  • KL 散度
  • 梯度消失/爆炸缓解
  • L1/L2 正则区别
  • Dropout 原理

六、多模态 / NLP 算法

  • DPO 算法原理
  • GPT vs BERT 结构和参数量
  • Flash Attention 原理
  • BERT 预训练任务
  • FP16 量化策略
  • QFormer 原理
  • 位置编码:RoPE、ALiBi
  • CLIP 原理、InfoNCE Loss
  • BLIP2 架构
  • LLaVA 和 LLaMA 区别
  • 大模型幻觉
  • 混合精度训练
  • RMSNorm 手写
  • DeepSpeed 原理
  • PEFT 微调
  • RAG 流程

七、GQA (Grouped-Query Attention) 深度分析

  • 问题:长文本推理时 KV Cache 的 Memory Bound
  • 方案:Query Head 分组共享 KV Head
  • 数学\(H_q=32, H_{kv}=8, G=4\),通过 Broadcasting 复制 KV
  • 效果:KV Cache 读取降低 4 倍,吞吐量提升近 4 倍
  • 几何解释:低秩约束,Query 间语义冗余使信息损失极小
  • 工程:PagedAttention 中减少 Page Table 开销,FlashAttention 中 SRAM 复用
  • [[transformer]] — 基础架构详解
  • [[flash-attention]] — 注意力优化
  • [[llm-rl-algorithms]] — PPO/DPO/GRPO
  • [[deepseek]] — 开源模型系列
  • [[qwen-series]] — 通义千问系列
  • [[deepspeed]] — 训练优化
  • [[quantization]] — 模型量化
  • [[interview-notes-comprehensive]] — 面试笔记综合索引

Sources

  • LLM Questions 2025 — /mnt/c/Users/gyh14/WorkSpace/Personal-Notes/Notes/LLM Questions.md