Re 82:读论文:qwen 3

诸神缄默不语-个人技术博文与视频目录
诸神缄默不语的论文阅读笔记和分类

这是阿里千问模型的2025年新版本。我之前简单列举过Qwen 2.5的一些资料和特质:阿里大模型:Qwen2.5

概括地讲,Qwen 3是一个先进的语言大模型,权重小,性能好(实验结果是同尺寸模型下,效果好,而且推理代价小),完全开源权重,有一系列权重,包括稠密的和MoE的(旗舰模型Qwen3-235B-A22B是MoE的)。小模型是由大模型蒸馏出来的。

所有模型权重都可以用prompt或prompt模版来自主切换推理和非推理模式,就不用像以前如果想从推理模式切换非推理模式需要换模型(如以前就得从Qwen 2.5切换到QwQ才能实现推理模式)。

引入了思考预算机制(thinking budget mechanism),可以由用户在推理时动态分配计算资源(控制思维链的深度),更好地平衡复杂推理能力和答案生成速度。

论文下载网址:https://arxiv.org/abs/2505.09388

官方博客:https://qwenlm.github.io/zh/blog/qwen3/

官方GitHub项目:https://github.com/QwenLM/Qwen3

官方大模型试用网站:https://chat.qwen.ai/

官方agent GitHub项目:https://github.com/QwenLM/Qwen-Agent

论文和代码我打了个包,可以直接下:

复制代码
我用夸克网盘给你分享了「20250621Qwen3」,点击链接或复制整段内容,打开「夸克APP」即可获取。
/~d401372Bc2~:/
链接:https://pan.quark.cn/s/1da01cfd16e3

因为这种大模型的论文都是钞能力,所以我就不太想详细写实验细节了,因为很多都用不到,等我用到了我会回来加的。结果部分我也不太想写,都好意思发出来了实验效果肯定写最好的那一版嘛,cherry-pick,不寒碜!所以我实验结果就直接截图了表格,我觉得还挺不言自明的。

对模型的效果定性评估我过后可能会再出一版。

附录我只看了,没有列进来。

文章目录

  • [1. 模型架构](#1. 模型架构)
    • [1. 分词器](#1. 分词器)
  • [2. 训练流程](#2. 训练流程)
    • [1. 预训练](#1. 预训练)
    • [2. 后训练](#2. 后训练)
  • [3. 实验结果](#3. 实验结果)
    • [1. 预训练阶段](#1. 预训练阶段)
    • [2. 后训练阶段](#2. 后训练阶段)
      • [1. 数据集](#1. 数据集)
      • [2. 对比实验结果](#2. 对比实验结果)
      • [3. 实验分析](#3. 实验分析)

1. 模型架构

Qwen 3稠密模型的架构类似于Qwen 2.5:

Grouped Query Attention (GQA)

SwiGLU

RoPE[1](#1)

RMSNorm with pre-normalization

删除了QKV-bias

引入了QK-Norm

Qwen3 MoE引入了fine-grained expert segmentation和global-batch load balancing loss,删除了shared experts

1. 分词器

Qwen's tokenizer:属于byte-level byte-pair encoding (BBPE)

2. 训练流程

1. 预训练

数据来源包括:①微调Qwen2.5-VL从PDF中提取文本。②用Qwen2.5-Math生成数学内容,用Qwen-2.5-Coder生成编程内容。(更多细节略)

第一步:用30T token预训练,让模型学习通用知识。

第二步:用STEM等知识密集型数据(5T)让模型学习推理能力。

第三步:用长上下文训练,将模型上下文最大长度从4,096拓展到32,768。

(需要注意的是,虽然模型原生最大输入token数为32,768,但通过RoPE系编码(如YaRN)可以将上下文长度扩展到131,072 tokens)

最优超参数预测通过scaling laws实现

2. 后训练

第一步:长CoT冷启动微调

用Qwen-2.5选择复杂且易评估结果正确性的问题,标记并平衡问题领域。对于这些问题,用QwQ-32B生成一组CoT回答候选,如果QwQ-32B无法回答就用人工标注,最终生成CoT数据集(论文里好像没提这一段是哪来的,我寻思应该是人工标来的)。

第二步:推理RL(对数学和编程任务)

数据集是query-verifier对

GRPO

第三步:用含和不含推理路径的数据来微调(让模型获得切换思考和不思考模式的能力)

在这一步引入了思考预算机制(thinking budget mechanism):"Considering the limited time by the user, I have to give the solution based on the thinking directly now.\n</think>.\n\n"

第四步:下游任务RL

提高模型的Instruction Following、Format Following、Preference Alignment、Agent Ability和对特定场景(如Retrieval-Augmented Generation (RAG))的能力。

蒸馏:

第一步:Off-policy Distillation:就是常规的大模型蒸馏操作,用大模型的输出来蒸馏小模型。

第二步:On-policy Distillation:用小模型的输出来跟大模型对齐(KL散度),提升小模型的效果。

3. 实验结果

1. 预训练阶段

旗舰大模型:

Qwen3-32B-Base:

蒸馏出的小模型:

2. 后训练阶段

1. 数据集

多语言数据集:

2. 对比实验结果

旗舰模型思考版:

旗舰模型不思考版:

Qwen3-32B:

小模型:

3. 实验分析

增加thinking budget的token,会提升模型效果(这不是废话吗)(但有时一些结论不言而喻的实验也是得做的,也是有其意义的,也是有可能出现反常识结果的,但是显然这个不是):

证明On-Policy Distillation的效果(跟直接RL对比)

stage2、3、4的效果:


  1. 我之前写过论文阅读笔记:Re 79 读论文:RoPE RoFormer: Enhanced Transformer with Rotary Position Embedding ↩︎
相关推荐
AI大模型技术社4 小时前
工业级Transformer优化手册:混合精度训练+量化部署实战解析
人工智能·llm
聚客AI8 小时前
「实战指南」90%+准确率的BERT微调:情感分析模型落地指南
人工智能·llm·掘金·日新计划
精灵vector8 小时前
Agent的记忆详细实现机制
python·langchain·llm
磊叔的技术博客9 小时前
LLM 系列(四):神奇的魔法数 27
后端·llm
MarkGosling12 小时前
【开源项目】当大模型推理遇上“性能刺客”:LMCache 实测手记
redis·python·llm
玩转AGI12 小时前
Coze篇-搭建情感陪聊智能体
人工智能·llm·coze
硬核隔壁老王12 小时前
MCP篇-一文讲透 MCP原理
人工智能·llm·mcp
LLM大模型12 小时前
LangGraph篇-检查点与Send机制
人工智能·程序员·llm
DeepSeek忠实粉丝12 小时前
微调篇--Stable Diffusion模型微调
人工智能·程序员·llm