Skip to content

衍微的知识库

Qwen Series

Qwen Series

通义千问系列模型的演进：从 Qwen1 到 Qwen3 的架构创新

Overview

Qwen（通义千问）是阿里巴巴开源的大语言模型系列。辉少的面试笔记详细追踪了从 Qwen1 到 Qwen3 的演进，特别是 Qwen3 引入的高稀疏 MoE、双模式推理、多模态 Agent 能力等重大改进。

Key Facts / Claims

Qwen3 核心改进

1. 高稀疏 MoE 架构 - Qwen3-Next-80B-A3B：总参数 80B，激活仅 3B - 性能对标 Qwen2.5-72B，推理成本仅 10% - 原生支持多 Token 预测（Multi-token Prediction）

2. 双模式推理（Thinking Mode） - Instruct Mode：快速响应，类似 Qwen2 - Thinking Mode：深度思考，类似 o1/R1，自动展开 CoT - 预训练阶段引入大规模 RL 验证

3. Qwen3-VL：从感知到行动 - DeepStack ViT：融合多层特征，解决小物体检测和密集文字识别 - Interleaved-MRoPE：支持超长视频（小时级）时间戳定位 - Visual Action：直接操作 GUI（点击、滑动） - Visual Coding：将 UI 设计图转为 HTML/CSS/JS

4. Hybrid Attention - 结合 Global Attention + Sliding Window Attention - 处理 1M+ 上下文时 KV Cache 大幅降低 - 解决超长文本后段"注意力迷失"问题

性能对标

Qwen3 模型	约等于 Qwen2.5 性能	核心优势
Qwen3-32B (Dense)	> Qwen2.5-72B	单卡显存获旗舰效果
Qwen3-30B-A3B (MoE)	≈ Qwen2.5-14B/32B	极高吞吐量，边缘部署
Qwen3-Next-80B-A3B	> Qwen2.5-72B	激活仅 3B，大规模并发

[[deepseek]] — 另一大国产开源模型系列
[[llm-rl-algorithms]] — Qwen3 使用的 RL 训练
[[transformer]] — 基础架构
[[quantization]] — Qwen3 的量化部署
[[flash-attention]] — 注意力优化
[[external-blogs]] — 科学空间的 Transformer 分析

Counter-arguments & Data Gaps

Qwen3 的 MoE 路由机制细节
Thinking Mode 的 RL 训练流程（类似 DeepSeek-R1？）
与 LLaMA、Mistral 系列的直接对比

Sources

Qwen 系列笔记 — 面试笔记