Qwen Series

通义千问系列模型的演进:从 Qwen1 到 Qwen3 的架构创新

Overview

Qwen(通义千问)是阿里巴巴开源的大语言模型系列。辉少的面试笔记详细追踪了从 Qwen1 到 Qwen3 的演进,特别是 Qwen3 引入的高稀疏 MoE、双模式推理、多模态 Agent 能力等重大改进。

Key Facts / Claims

Qwen3 核心改进

1. 高稀疏 MoE 架构

  • Qwen3-Next-80B-A3B:总参数 80B,激活仅 3B
  • 性能对标 Qwen2.5-72B,推理成本仅 10%
  • 原生支持多 Token 预测(Multi-token Prediction)

2. 双模式推理(Thinking Mode)

  • Instruct Mode:快速响应,类似 Qwen2
  • Thinking Mode:深度思考,类似 o1/R1,自动展开 CoT
  • 预训练阶段引入大规模 RL 验证

3. Qwen3-VL:从感知到行动

  • DeepStack ViT:融合多层特征,解决小物体检测和密集文字识别
  • Interleaved-MRoPE:支持超长视频(小时级)时间戳定位
  • Visual Action:直接操作 GUI(点击、滑动)
  • Visual Coding:将 UI 设计图转为 HTML/CSS/JS

4. Hybrid Attention

  • 结合 Global Attention + Sliding Window Attention
  • 处理 1M+ 上下文时 KV Cache 大幅降低
  • 解决超长文本后段”注意力迷失”问题

性能对标

Qwen3 模型 约等于 Qwen2.5 性能 核心优势
Qwen3-32B (Dense) > Qwen2.5-72B 单卡显存获旗舰效果
Qwen3-30B-A3B (MoE) ≈ Qwen2.5-14B/32B 极高吞吐量,边缘部署
Qwen3-Next-80B-A3B > Qwen2.5-72B 激活仅 3B,大规模并发
  • [[deepseek]] — 另一大国产开源模型系列
  • [[llm-rl-algorithms]] — Qwen3 使用的 RL 训练
  • [[transformer]] — 基础架构
  • [[quantization]] — Qwen3 的量化部署
  • [[flash-attention]] — 注意力优化
  • [[external-blogs]] — 科学空间的 Transformer 分析

Counter-arguments & Data Gaps

  • Qwen3 的 MoE 路由机制细节
  • Thinking Mode 的 RL 训练流程(类似 DeepSeek-R1?)
  • 与 LLaMA、Mistral 系列的直接对比

Sources