【阿里拥抱开源】Qwen团队开源新一代深度思考模型——Qwen3-Next-80B-A3B-Thinking

过去几个月，我们观察到为追求更强大、更自主的人工智能（AI），业界在模型总参数量与上下文长度扩展方面呈现出日益明确的趋势。我们很高兴分享应对这些需求的最新进展------其核心在于通过创新模型架构提升扩展效率，我们将这类下一代基础模型命名为Qwen3-Next。

核心亮点

作为Qwen3-Next系列的首个版本，Qwen3-Next-80B-A3B具备以下关键升级：

混合注意力机制 ：采用门控DeltaNet 与门控注意力组合替代标准注意力，实现超长上下文的高效建模
高稀疏度专家混合（MoE）：在MoE层实现极低激活率，显著降低单token计算量同时保持模型容量
稳定性优化 ：包含零中心化权重衰减层归一化等技术，确保训练及微调阶段的稳定性
多令牌预测（MTP）：提升预训练效果并加速推理过程

Qwen3-Next-80B-A3B在参数效率与推理速度方面均表现优异：

Qwen3-Next-80B-A3B-Base在下游任务中超越Qwen3-32B-Base，总训练成本降低90%，且在32K以上上下文场景实现10倍推理吞吐量
通过运用GSPO，我们解决了混合注意力机制与高稀疏性MoE架构结合在强化学习训练中带来的稳定性和效率难题。
Qwen3-Next-80B-A3B-Thinking在复杂推理任务中展现出卓越性能，不仅超越了Qwen3-30B-A3B-Thinking-2507和Qwen3-32B-Thinking ，还在多项基准测试中优于专有模型Gemini-2.5-Flash-Thinking。

如需了解更多详情，请参阅我们的博客文章Qwen3-Next。

模型概述

$!注意$
Qwen3-Next-80B-A3B-Thinking 仅支持思维模式。

为强制模型进入思考状态，默认对话模板会自动包含<think>标签。

因此，模型输出仅显示闭合标签</think>而缺少显式开启标签<think>属于正常现象。
$!注意$
Qwen3-Next-80B-A3B-Thinking 可能生成比前代更长的思考内容。

我们强烈建议将其用于高度复杂的推理任务。

Qwen3-Next-80B-A3B-Thinking 具有以下特征：

类型：因果语言模型
训练阶段：预训练（15T tokens）及后训练
参数量：总计800亿参数，激活30亿参数
非嵌入参数量：790亿
层数：48
隐藏层维度：2048
混合架构：12 × (3 × (门控DeltaNet → 专家混合) → (门控注意力 → 专家混合))
门控注意力机制：
- 注意力头数量：查询头16个，键值头2个
- 头维度：256
- 旋转位置嵌入维度：64
门控DeltaNet：
- 线性注意力头数量：值头32个，查询键头16个
- 头维度：128
专家混合系统：
- 专家总数：512
- 激活专家数：10
- 共享专家数：1
- 专家中间层维度：512
上下文长度：原生支持262,144 token，可扩展至1,010,000 token

性能

	Qwen3-30B-A3B-Thinking-2507	Qwen3-32B Thinking	Qwen3-235B-A22B-Thinking-2507	Gemini-2.5-Flash Thinking	Qwen3-Next-80B-A3B-Thinking
Knowledge
MMLU-Pro	80.9	79.1	84.4	81.9	82.7
MMLU-Redux	91.4	90.9	93.8	92.1	92.5
GPQA	73.4	68.4	81.1	82.8	77.2
SuperGPQA	56.8	54.1	64.9	57.8	60.8
Reasoning
AIME25	85.0	72.9	92.3	72.0	87.8
HMMT25	71.4	51.5	83.9	64.2	73.9
LiveBench 241125	76.8	74.9	78.4	74.3	76.6
Coding
LiveCodeBench v6 (25.02-25.05)	66.0	60.6	74.1	61.2	68.7
CFEval	2044	1986	2134	1995	2071
OJBench	25.1	24.1	32.5	23.5	29.7
Alignment
IFEval	88.9	85.0	87.8	89.8	88.9
Arena-Hard v2*	56.0	48.4	79.7	56.7	62.3
WritingBench	85.0	79.0	88.3	83.9	84.6
Agent
BFCL-v3	72.4	70.3	71.9	68.6	72.0
TAU1-Retail	67.8	52.8	67.8	65.2	69.6
TAU1-Airline	48.0	29.0	46.0	54.0	49.0
TAU2-Retail	58.8	49.7	71.9	66.7	67.8
TAU2-Airline	58.0	45.5	58.0	52.0	60.5
TAU2-Telecom	26.3	27.2	45.6	31.6	43.9
Multilingualism
MultiIF	76.4	73.0	80.6	74.4	77.8
MMLU-ProX	76.4	74.6	81.0	80.2	78.7
INCLUDE	74.4	73.7	81.0	83.9	78.9
PolyMATH	52.6	47.4	60.1	49.8	56.3

*: For reproducibility, we report the win rates evaluated by GPT-4.1.

快速入门

Qwen3-Next的代码已合并至Hugging Face transformers主分支。

shell 复制代码

pip install git+https://github.com/huggingface/transformers.git@main

使用早期版本时会出现以下报错：

复制代码

KeyError: 'qwen3_next'

以下代码片段演示如何基于给定输入使用该模型生成内容。

python 复制代码

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-Next-80B-A3B-Thinking"

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    dtype="auto",
    device_map="auto"
)

# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt},
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768,
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# parsing thinking content
try:
    # rindex finding 151668 (</think>)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content) # no opening <think> tag
print("content:", content)

$!注意$
多令牌预测（MTP）功能在Hugging Face Transformers中尚未全面开放。
$!注意$
效率或吞吐量的提升很大程度上取决于具体实现方案。

建议采用专用推理框架（如SGLang和vLLM）进行推理任务。
$!提示$
根据推理配置，使用flash-linear-attention和causal-conv1d可能会获得更优效率。

具体安装要求及说明详见上述链接。

部署方案

推荐使用最新版sglang或vllm创建OpenAI兼容的API服务端点。

SGLang框架

SGLang是面向大语言模型与视觉语言模型的高效服务框架，可部署具有OpenAI兼容API的服务器。

SGLang的main分支已支持Qwen3-Next模型，可通过源码安装：

shell 复制代码

pip install 'sglang[all] @ git+https://github.com/sgl-project/sglang.git@main#subdirectory=python'

以下命令可在4块GPU上启动支持256K上下文长度的API服务（端口30000），启用张量并行：

shell 复制代码

SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server --model-path Qwen/Qwen3-Next-80B-A3B-Thinking --port 30000 --tp-size 4 --context-length 262144 --reasoning-parser deepseek-r1 --mem-fraction-static 0.8

启用MTP功能时建议使用以下命令（其余参数与上述配置相同）：

shell 复制代码

SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server --model-path Qwen/Qwen3-Next-80B-A3B-Thinking --port 30000 --tp-size 4 --context-length 262144 --reasoning-parser deepseek-r1 --mem-fraction-static 0.8 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4

$!注意$
目前需要设置环境变量 SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1
$!注意$
默认上下文长度为256K

若遇到内存不足(OOM)问题，可考虑减小上下文长度

但由于模型推理可能需要较长token序列，我们强烈建议使用大于131,072的上下文长度

vLLM引擎

vLLM 是针对大语言模型的高吞吐、内存优化型推理与服务引擎。该引擎可部署提供OpenAI兼容API服务。

vLLM的main分支已支持Qwen3-Next模型，可通过源码安装：

shell 复制代码

pip install vllm --pre --extra-index-url https://wheels.vllm.ai/nightly

以下命令可用于在4个GPU上使用张量并行创建最大上下文长度为256K的API端点，地址为http://localhost:8000/v1。

shell 复制代码

VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve Qwen/Qwen3-Next-80B-A3B-Thinking --port 8000 --tensor-parallel-size 4 --max-model-len 262144 --enable-reasoning --reasoning-parser deepseek_r1

对于MTP，建议使用以下命令，其余设置与上述相同：

shell 复制代码

VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve Qwen/Qwen3-Next-80B-A3B-Thinking --port 8000 --tensor-parallel-size 4 --max-model-len 262144 --enable-reasoning --reasoning-parser deepseek_r1 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

$!注意$
目前需要设置环境变量 VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
$!注意$
默认上下文长度为256K。

若遇到内存不足（OOM）问题，可考虑减小上下文长度。

但由于模型推理可能需要较长的token序列，我们强烈建议尽可能使用大于131,072的上下文长度。

智能体应用

Qwen3在工具调用能力方面表现卓越。我们推荐使用Qwen-Agent来充分发挥Qwen3的智能体能力。Qwen-Agent内置了工具调用模板和解析器，可大幅降低编码复杂度。

您可以通过MCP配置文件定义可用工具，使用Qwen-Agent的集成工具，或自行集成其他工具。

python 复制代码

from qwen_agent.agents import Assistant

# Define LLM
# Using Alibaba Cloud Model Studio
llm_cfg = {
    'model': 'Qwen3-Next-80B-A3B-Thinking',
    'model_type': 'qwen_dashscope',
}

# Using OpenAI-compatible API endpoint. It is recommended to disable the reasoning and the tool call parsing
# functionality of the deployment frameworks and let Qwen-Agent automate the related operations. For example, 
# `VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve Qwen/Qwen3-Next-80B-A3B-Thinking --served-model-name Qwen3-Next-80B-A3B-Thinking --port 8000 --tensor-parallel-size 4 --max-model-len 262144`.
#
# llm_cfg = {
#     'model': 'Qwen3-Next-80B-A3B-Thinking',
# 
#     # Use a custom endpoint compatible with OpenAI API:
#     'model_server': 'http://localhost:8000/v1',  # api_base without reasoning and tool call parsing
#     'api_key': 'EMPTY',
#     'generate_cfg': {
#         'thought_in_content': True,
#     },
# }

# Define Tools
tools = [
    {'mcpServers': {  # You can specify the MCP configuration file
            'time': {
                'command': 'uvx',
                'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
            },
            "fetch": {
                "command": "uvx",
                "args": ["mcp-server-fetch"]
            }
        }
    },
  'code_interpreter',  # Built-in tools
]

# Define Agent
bot = Assistant(llm=llm_cfg, function_list=tools)

# Streaming generation
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Introduce the latest developments of Qwen'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

处理超长文本

Qwen3-Next 原生支持最高 262,144 tokens 的上下文长度。

当对话总长度（包含输入和输出）远超此限制时，我们建议使用 RoPE 缩放技术来有效处理长文本。

我们已通过 YaRN 方法验证了模型在百万级 tokens 上下文长度下的表现。

目前多个推理框架支持 YaRN 技术，例如 transformers、vllm 和 sglang。

通常可通过两种方式启用 YaRN：

修改模型文件：

在 config.json 文件中添加 rope_scaling 字段：

json 复制代码

{
    ...,
    "rope_scaling": {
        "rope_type": "yarn",
        "factor": 4.0,
        "original_max_position_embeddings": 262144
    }
}

传递命令行参数：

对于 vllm，您可以使用

shell 复制代码

VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":262144}' --max-model-len 1010000

对于 sglang，您可以使用

shell 复制代码

 SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":262144}}' --context-length 1010000

$!注意$
所有知名的开源框架均采用静态YaRN实现，这意味着无论输入长度如何变化，缩放因子保持恒定，可能影响短文本的处理性能 。

建议仅在需要处理长上下文时添加rope_scaling配置项。

同时推荐根据实际需求调整factor参数。例如，若应用场景的典型上下文长度为524,288个token，建议将factor设为2.0。

最佳实践

为获得最优性能，我们推荐以下配置方案：

采样参数：
- 建议采用Temperature=0.6、TopP=0.95、TopK=20及MinP=0组合
- 支持该参数的框架可将presence_penalty设置在0-2区间以减少无休止重复，但值过高可能导致偶发语种混杂和模型性能轻微下降
充足输出长度：常规查询建议使用32,768 token的输出长度。针对数学/编程竞赛等高复杂度问题的基准测试，建议将最大输出长度设为81,920 token，为模型提供充分生成空间以产出细致全面的回答，从而提升整体表现。
标准化输出格式：基准测试时建议通过提示词规范输出格式
- 数学题：在提示词中加入"请逐步推理，并将最终答案置于\boxed{}中"
- 选择题 ：在提示词中添加JSON结构体规范响应格式："请在answer字段仅显示选项字母，例如"answer": "C""
历史记录不包含思考过程：多轮对话中，历史模型输出应仅包含最终输出部分，无需保留思考过程。该特性已在提供的Jinja2对话模板中实现。对于未直接使用该模板的框架，需开发者自行确保遵循此最佳实践。