Re 82：读论文：qwen 3

这是阿里千问模型的2025年新版本。我之前简单列举过Qwen 2.5的一些资料和特质：阿里大模型：Qwen2.5

概括地讲，Qwen 3是一个先进的语言大模型，权重小，性能好（实验结果是同尺寸模型下，效果好，而且推理代价小），完全开源权重，有一系列权重，包括稠密的和MoE的（旗舰模型Qwen3-235B-A22B是MoE的）。小模型是由大模型蒸馏出来的。

所有模型权重都可以用prompt或prompt模版来自主切换推理和非推理模式，就不用像以前如果想从推理模式切换非推理模式需要换模型（如以前就得从Qwen 2.5切换到QwQ才能实现推理模式）。

引入了思考预算机制（thinking budget mechanism），可以由用户在推理时动态分配计算资源（控制思维链的深度），更好地平衡复杂推理能力和答案生成速度。

论文下载网址：https://arxiv.org/abs/2505.09388

官方博客：https://qwenlm.github.io/zh/blog/qwen3/

官方GitHub项目：https://github.com/QwenLM/Qwen3

官方大模型试用网站：https://chat.qwen.ai/

官方agent GitHub项目：https://github.com/QwenLM/Qwen-Agent

论文和代码我打了个包，可以直接下：

复制代码

我用夸克网盘给你分享了「20250621Qwen3」，点击链接或复制整段内容，打开「夸克APP」即可获取。
/~d401372Bc2~:/
链接：https://pan.quark.cn/s/1da01cfd16e3

因为这种大模型的论文都是钞能力，所以我就不太想详细写实验细节了，因为很多都用不到，等我用到了我会回来加的。结果部分我也不太想写，都好意思发出来了实验效果肯定写最好的那一版嘛，cherry-pick，不寒碜！所以我实验结果就直接截图了表格，我觉得还挺不言自明的。

对模型的效果定性评估我过后可能会再出一版。

附录我只看了，没有列进来。

文章目录

[1. 模型架构](#1. 模型架构)
- [1. 分词器](#1. 分词器)
[2. 训练流程](#2. 训练流程)
- [1. 预训练](#1. 预训练)
- [2. 后训练](#2. 后训练)
[3. 实验结果](#3. 实验结果)
- [1. 预训练阶段](#1. 预训练阶段)
- [2. 后训练阶段](#2. 后训练阶段)
- - [1. 数据集](#1. 数据集)
  - [2. 对比实验结果](#2. 对比实验结果)
  - [3. 实验分析](#3. 实验分析)

1. 模型架构

Qwen 3稠密模型的架构类似于Qwen 2.5：

Grouped Query Attention (GQA)

SwiGLU

RoPE^[1](#1)

RMSNorm with pre-normalization

删除了QKV-bias

引入了QK-Norm

Qwen3 MoE引入了fine-grained expert segmentation和global-batch load balancing loss，删除了shared experts

1. 分词器

Qwen's tokenizer：属于byte-level byte-pair encoding (BBPE)

2. 训练流程

1. 预训练

数据来源包括：①微调Qwen2.5-VL从PDF中提取文本。②用Qwen2.5-Math生成数学内容，用Qwen-2.5-Coder生成编程内容。（更多细节略）

第一步：用30T token预训练，让模型学习通用知识。

第二步：用STEM等知识密集型数据（5T）让模型学习推理能力。

第三步：用长上下文训练，将模型上下文最大长度从4,096拓展到32,768。

（需要注意的是，虽然模型原生最大输入token数为32,768，但通过RoPE系编码（如YaRN）可以将上下文长度扩展到131,072 tokens）

最优超参数预测通过scaling laws实现

2. 后训练

第一步：长CoT冷启动微调

用Qwen-2.5选择复杂且易评估结果正确性的问题，标记并平衡问题领域。对于这些问题，用QwQ-32B生成一组CoT回答候选，如果QwQ-32B无法回答就用人工标注，最终生成CoT数据集（论文里好像没提这一段是哪来的，我寻思应该是人工标来的）。

第二步：推理RL（对数学和编程任务）

数据集是query-verifier对

GRPO

第三步：用含和不含推理路径的数据来微调（让模型获得切换思考和不思考模式的能力）

在这一步引入了思考预算机制（thinking budget mechanism）："Considering the limited time by the user, I have to give the solution based on the thinking directly now.\n</think>.\n\n"

第四步：下游任务RL

提高模型的Instruction Following、Format Following、Preference Alignment、Agent Ability和对特定场景（如Retrieval-Augmented Generation (RAG)）的能力。

蒸馏：

第一步：Off-policy Distillation：就是常规的大模型蒸馏操作，用大模型的输出来蒸馏小模型。

第二步：On-policy Distillation：用小模型的输出来跟大模型对齐（KL散度），提升小模型的效果。