过去几个月,我们观察到为追求更强大、更自主的人工智能(AI),业界在模型总参数量与上下文长度扩展方面呈现出日益明确的趋势。我们很高兴分享应对这些需求的最新进展------其核心在于通过创新模型架构提升扩展效率,我们将这类下一代基础模型命名为Qwen3-Next。
核心亮点
作为Qwen3-Next系列的首个版本,Qwen3-Next-80B-A3B具备以下关键升级:
- 混合注意力机制 :采用门控DeltaNet 与门控注意力组合替代标准注意力,实现超长上下文的高效建模
- 高稀疏度专家混合(MoE):在MoE层实现极低激活率,显著降低单token计算量同时保持模型容量
- 稳定性优化 :包含零中心化权重衰减层归一化等技术,确保训练及微调阶段的稳定性
- 多令牌预测(MTP):提升预训练效果并加速推理过程
Qwen3-Next-80B-A3B在参数效率与推理速度方面均表现优异:
- Qwen3-Next-80B-A3B-Base在下游任务中超越Qwen3-32B-Base,总训练成本降低90%,且在32K以上上下文场景实现10倍推理吞吐量
- 通过运用GSPO,我们解决了混合注意力机制与高稀疏性MoE架构结合在强化学习训练中带来的稳定性和效率难题。
Qwen3-Next-80B-A3B-Thinking在复杂推理任务中展现出卓越性能,不仅超越了Qwen3-30B-A3B-Thinking-2507和Qwen3-32B-Thinking ,还在多项基准测试中优于专有模型Gemini-2.5-Flash-Thinking。

如需了解更多详情,请参阅我们的博客文章Qwen3-Next。
模型概述
!注意
Qwen3-Next-80B-A3B-Thinking 仅支持思维模式。
为强制模型进入思考状态,默认对话模板会自动包含
<think>
标签。因此,模型输出仅显示闭合标签
</think>
而缺少显式开启标签<think>
属于正常现象。!注意
Qwen3-Next-80B-A3B-Thinking 可能生成比前代更长的思考内容。
我们强烈建议将其用于高度复杂的推理任务。
Qwen3-Next-80B-A3B-Thinking 具有以下特征:
- 类型:因果语言模型
- 训练阶段:预训练(15T tokens)及后训练
- 参数量:总计800亿参数,激活30亿参数
- 非嵌入参数量:790亿
- 层数:48
- 隐藏层维度:2048
- 混合架构:12 × (3 × (门控DeltaNet → 专家混合) → (门控注意力 → 专家混合))
- 门控注意力机制:
- 注意力头数量:查询头16个,键值头2个
- 头维度:256
- 旋转位置嵌入维度:64
- 门控DeltaNet:
- 线性注意力头数量:值头32个,查询键头16个
- 头维度:128
- 专家混合系统:
- 专家总数:512
- 激活专家数:10
- 共享专家数:1
- 专家中间层维度:512
- 上下文长度:原生支持262,144 token,可扩展至1,010,000 token

性能
Qwen3-30B-A3B-Thinking-2507 | Qwen3-32B Thinking | Qwen3-235B-A22B-Thinking-2507 | Gemini-2.5-Flash Thinking | Qwen3-Next-80B-A3B-Thinking | |
---|---|---|---|---|---|
Knowledge | |||||
MMLU-Pro | 80.9 | 79.1 | 84.4 | 81.9 | 82.7 |
MMLU-Redux | 91.4 | 90.9 | 93.8 | 92.1 | 92.5 |
GPQA | 73.4 | 68.4 | 81.1 | 82.8 | 77.2 |
SuperGPQA | 56.8 | 54.1 | 64.9 | 57.8 | 60.8 |
Reasoning | |||||
AIME25 | 85.0 | 72.9 | 92.3 | 72.0 | 87.8 |
HMMT25 | 71.4 | 51.5 | 83.9 | 64.2 | 73.9 |
LiveBench 241125 | 76.8 | 74.9 | 78.4 | 74.3 | 76.6 |
Coding | |||||
LiveCodeBench v6 (25.02-25.05) | 66.0 | 60.6 | 74.1 | 61.2 | 68.7 |
CFEval | 2044 | 1986 | 2134 | 1995 | 2071 |
OJBench | 25.1 | 24.1 | 32.5 | 23.5 | 29.7 |
Alignment | |||||
IFEval | 88.9 | 85.0 | 87.8 | 89.8 | 88.9 |
Arena-Hard v2* | 56.0 | 48.4 | 79.7 | 56.7 | 62.3 |
WritingBench | 85.0 | 79.0 | 88.3 | 83.9 | 84.6 |
Agent | |||||
BFCL-v3 | 72.4 | 70.3 | 71.9 | 68.6 | 72.0 |
TAU1-Retail | 67.8 | 52.8 | 67.8 | 65.2 | 69.6 |
TAU1-Airline | 48.0 | 29.0 | 46.0 | 54.0 | 49.0 |
TAU2-Retail | 58.8 | 49.7 | 71.9 | 66.7 | 67.8 |
TAU2-Airline | 58.0 | 45.5 | 58.0 | 52.0 | 60.5 |
TAU2-Telecom | 26.3 | 27.2 | 45.6 | 31.6 | 43.9 |
Multilingualism | |||||
MultiIF | 76.4 | 73.0 | 80.6 | 74.4 | 77.8 |
MMLU-ProX | 76.4 | 74.6 | 81.0 | 80.2 | 78.7 |
INCLUDE | 74.4 | 73.7 | 81.0 | 83.9 | 78.9 |
PolyMATH | 52.6 | 47.4 | 60.1 | 49.8 | 56.3 |
*: For reproducibility, we report the win rates evaluated by GPT-4.1.
快速入门
Qwen3-Next的代码已合并至Hugging Face transformers
主分支。
shell
pip install git+https://github.com/huggingface/transformers.git@main
使用早期版本时会出现以下报错:
KeyError: 'qwen3_next'
以下代码片段演示如何基于给定输入使用该模型生成内容。
python
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-Next-80B-A3B-Thinking"
# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
dtype="auto",
device_map="auto"
)
# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
{"role": "user", "content": prompt},
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# conduct text completion
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768,
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
# parsing thinking content
try:
# rindex finding 151668 (</think>)
index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
index = 0
thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")
print("thinking content:", thinking_content) # no opening <think> tag
print("content:", content)
!注意
多令牌预测(MTP)功能在Hugging Face Transformers中尚未全面开放。
!注意
效率或吞吐量的提升很大程度上取决于具体实现方案。
建议采用专用推理框架(如SGLang和vLLM)进行推理任务。
!提示
根据推理配置,使用
flash-linear-attention
和causal-conv1d
可能会获得更优效率。具体安装要求及说明详见上述链接。
部署方案
推荐使用最新版sglang
或vllm
创建OpenAI兼容的API服务端点。
SGLang框架
SGLang是面向大语言模型与视觉语言模型的高效服务框架,可部署具有OpenAI兼容API的服务器。
SGLang的main
分支已支持Qwen3-Next模型,可通过源码安装:
shell
pip install 'sglang[all] @ git+https://github.com/sgl-project/sglang.git@main#subdirectory=python'
以下命令可在4块GPU上启动支持256K上下文长度的API服务(端口30000),启用张量并行:
shell
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server --model-path Qwen/Qwen3-Next-80B-A3B-Thinking --port 30000 --tp-size 4 --context-length 262144 --reasoning-parser deepseek-r1 --mem-fraction-static 0.8
启用MTP功能时建议使用以下命令(其余参数与上述配置相同):
shell
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server --model-path Qwen/Qwen3-Next-80B-A3B-Thinking --port 30000 --tp-size 4 --context-length 262144 --reasoning-parser deepseek-r1 --mem-fraction-static 0.8 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4
!注意
目前需要设置环境变量
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1
!注意
默认上下文长度为256K
若遇到内存不足(OOM)问题,可考虑减小上下文长度
但由于模型推理可能需要较长token序列,我们强烈建议使用大于131,072的上下文长度
vLLM引擎
vLLM 是针对大语言模型的高吞吐、内存优化型推理与服务引擎。该引擎可部署提供OpenAI兼容API服务。
vLLM的main
分支已支持Qwen3-Next模型,可通过源码安装:
shell
pip install vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
以下命令可用于在4个GPU上使用张量并行创建最大上下文长度为256K的API端点,地址为http://localhost:8000/v1
。
shell
VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve Qwen/Qwen3-Next-80B-A3B-Thinking --port 8000 --tensor-parallel-size 4 --max-model-len 262144 --enable-reasoning --reasoning-parser deepseek_r1
对于MTP,建议使用以下命令,其余设置与上述相同:
shell
VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve Qwen/Qwen3-Next-80B-A3B-Thinking --port 8000 --tensor-parallel-size 4 --max-model-len 262144 --enable-reasoning --reasoning-parser deepseek_r1 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'
!注意
目前需要设置环境变量
VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
!注意
默认上下文长度为256K。
若遇到内存不足(OOM)问题,可考虑减小上下文长度。
但由于模型推理可能需要较长的token序列,我们强烈建议尽可能使用大于131,072的上下文长度。
智能体应用
Qwen3在工具调用能力方面表现卓越。我们推荐使用Qwen-Agent来充分发挥Qwen3的智能体能力。Qwen-Agent内置了工具调用模板和解析器,可大幅降低编码复杂度。
您可以通过MCP配置文件定义可用工具,使用Qwen-Agent的集成工具,或自行集成其他工具。
python
from qwen_agent.agents import Assistant
# Define LLM
# Using Alibaba Cloud Model Studio
llm_cfg = {
'model': 'Qwen3-Next-80B-A3B-Thinking',
'model_type': 'qwen_dashscope',
}
# Using OpenAI-compatible API endpoint. It is recommended to disable the reasoning and the tool call parsing
# functionality of the deployment frameworks and let Qwen-Agent automate the related operations. For example,
# `VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve Qwen/Qwen3-Next-80B-A3B-Thinking --served-model-name Qwen3-Next-80B-A3B-Thinking --port 8000 --tensor-parallel-size 4 --max-model-len 262144`.
#
# llm_cfg = {
# 'model': 'Qwen3-Next-80B-A3B-Thinking',
#
# # Use a custom endpoint compatible with OpenAI API:
# 'model_server': 'http://localhost:8000/v1', # api_base without reasoning and tool call parsing
# 'api_key': 'EMPTY',
# 'generate_cfg': {
# 'thought_in_content': True,
# },
# }
# Define Tools
tools = [
{'mcpServers': { # You can specify the MCP configuration file
'time': {
'command': 'uvx',
'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
},
"fetch": {
"command": "uvx",
"args": ["mcp-server-fetch"]
}
}
},
'code_interpreter', # Built-in tools
]
# Define Agent
bot = Assistant(llm=llm_cfg, function_list=tools)
# Streaming generation
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Introduce the latest developments of Qwen'}]
for responses in bot.run(messages=messages):
pass
print(responses)
处理超长文本
Qwen3-Next 原生支持最高 262,144 tokens 的上下文长度。
当对话总长度(包含输入和输出)远超此限制时,我们建议使用 RoPE 缩放技术来有效处理长文本。
我们已通过 YaRN 方法验证了模型在百万级 tokens 上下文长度下的表现。
目前多个推理框架支持 YaRN 技术,例如 transformers
、vllm
和 sglang
。
通常可通过两种方式启用 YaRN:
-
修改模型文件:
在
config.json
文件中添加rope_scaling
字段:json{ ..., "rope_scaling": { "rope_type": "yarn", "factor": 4.0, "original_max_position_embeddings": 262144 } }
-
传递命令行参数:
对于
vllm
,您可以使用shellVLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":262144}' --max-model-len 1010000
对于
sglang
,您可以使用shellSGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":262144}}' --context-length 1010000
!注意
所有知名的开源框架均采用静态YaRN实现,这意味着无论输入长度如何变化,缩放因子保持恒定,可能影响短文本的处理性能 。
建议仅在需要处理长上下文时添加
rope_scaling
配置项。同时推荐根据实际需求调整
factor
参数。例如,若应用场景的典型上下文长度为524,288个token,建议将factor
设为2.0。
最佳实践
为获得最优性能,我们推荐以下配置方案:
-
采样参数:
- 建议采用
Temperature=0.6
、TopP=0.95
、TopK=20
及MinP=0
组合 - 支持该参数的框架可将
presence_penalty
设置在0-2区间以减少无休止重复,但值过高可能导致偶发语种混杂和模型性能轻微下降
- 建议采用
-
充足输出长度:常规查询建议使用32,768 token的输出长度。针对数学/编程竞赛等高复杂度问题的基准测试,建议将最大输出长度设为81,920 token,为模型提供充分生成空间以产出细致全面的回答,从而提升整体表现。
-
标准化输出格式:基准测试时建议通过提示词规范输出格式
- 数学题:在提示词中加入"请逐步推理,并将最终答案置于\boxed{}中"
- 选择题 :在提示词中添加JSON结构体规范响应格式:"请在
answer
字段仅显示选项字母,例如"answer": "C"
"
-
历史记录不包含思考过程:多轮对话中,历史模型输出应仅包含最终输出部分,无需保留思考过程。该特性已在提供的Jinja2对话模板中实现。对于未直接使用该模板的框架,需开发者自行确保遵循此最佳实践。