普通服务器都能跑:深入了解 Qwen3-Next-80B-A3B-Instruct

AI 行业发展迅猛,各个模型都在超越模型规模和上下文长度的限制,以构建更智能、更强大的系统。阿里的 Qwen 团队凭借 Qwen3-Next 系列迈出了重要一步。最新的 Qwen 系列大语言模型引入了新的架构,可以实现更高的效率、更快的推理速度和更流畅的上下文处理。

在本文中,我们将深入探讨 ​Qwen3-Next-80B-A3B-Instruct ​,并探索其如何通过结合 ​混合注意力 (hybrid attention)​、高稀疏度专家混合 (High-Sparsity Mixture-of-Experts, MoE)多令牌预测 (multi-token prediction) 等技术,重新定义大型语言模型的可能性。我们尝试使用 DigitalOcean 的 Droplet 按需服务器运行、测试了 ​Qwen3-Next-80B-A3B-Instruct-int4-mixed-AutoRound​。

"​int4-mixed-AutoRound ​" 是该模型的量化版本,它使用名为 AutoRound 的技术将模型权重压缩为 4 位整数。这项技术​大幅减小了模型大小,加快了模型推理速度 ​,但对准确性略有折衷。因此,如果使用 CPU 进行模型测试,量化模型是更好的选择,因为它比完整模型更轻、运行速度更快。

本文会谈到的关键要点

  • Qwen3-Next-80B-A3B-Instruct 是一款拥有 800 亿参数的下一代大型语言模型,专为长上下文任务的高性能而设计。
  • 该模型引入了 混合注意力高稀疏度专家混合 (MoE **)** 和多令牌预测 (MTP)​,以提高​吞吐量成本效率上下文理解能力
  • 它展示了强大的长上下文处理能力,即使在 100 万个令牌 的长度下,凭借 YaRN 缩放技术,在 RULER 基准测试中仍能达到 91.8% 的准确率
  • 使用 AutoRound 进行量化的模型与 TransformersvLLM 等库完全兼容,使部署更容易、更快。
  • AutoRound 允许这些庞大的模型在**超低精度(2-4 位)**下运行,同时保持高精度,减少内存使用和推理成本。
  • 混合精度模型 ,例如用于专家层(expert layers)的 INT4 和用于非专家层的 INT8,在效率和性能之间保持了平衡。

什么是 Qwen3-Next-80B-A3B-Instruct?

Qwen3-Next-80B-A3B-Instruct 拥有 ​800 亿参数 ​,但在推理过程中​仅激活 30 亿参数​,因此也被称为下一代基础模型。

Qwen3-Next-80B-A3B 引入了 混合注意力 架构、​高稀疏度专家混合 (MoE​**)** 设计和​**多令牌预测 (MTP)**​,在吞吐量、成本效率和长上下文理解方面实现了显著改进。下面我们来详细了解一下这些术语:

  • 混合注意力 (Hybrid Attention): 混合注意力结合了不同类型的注意力机制,可以更高效地处理信息。它使模型能够在不牺牲性能的情况下,同时关注短期细节和长距离依赖关系
  • 高稀疏度专家混合 (High-Sparsity Mixture-of-Experts, MoE): MoE 将模型分成几个更小的"专家"网络,并且每个输入只激活少数几个。这意味着模型可以在使用更少资源的情况下处理大量工作负载,从而提高速度和成本效率。
  • 多令牌预测 (Multi-Token Prediction, MTP): MTP 允许模型在一个步骤中预测多个令牌,而不是一次只预测一个词。这加快了推理速度,使文本生成更快、更流畅。

关键架构统计信息:

  • 总参数量: 80B(3B 活跃)
  • 层数: 48
  • 专家数量: 512(10 个激活 + 1 个共享)
  • 上下文长度: 262,144 个令牌(可使用 YaRN 扩展到 100 万个令牌)
  • 隐藏维度: 2048

Qwen3-Next 的主要创新

1、用于长上下文建模的混合注意力

  • 传统的 Transformer 依赖**密集注意力 (dense attention)**,其计算复杂度随上下文长度呈二次方增长。
  • Qwen3-Next 用 Gated DeltaNet + Gated Attention 取代了它,实现了超长序列的高效上下文建模。

这种混合注意力机制确保了:

  • 长上下文的线性或近线性扩展
  • 稳定的训练和更好的梯度传播。
  • 原生 高效处理多达 256K 个令牌,使用 YaRN​ 缩放 可处理 1M 个令牌

2、高稀疏度专家混合 (MoE)

  • 该模型集成了高稀疏度 ​MoE ​ 层 ,每个令牌仅激活 512 个专家中的 10 个
  • 这带来了:
    • 大量的计算节省------每个令牌的 FLOPs 更低。
    • 通过专家专业化保留了巨大的模型容量。
  • 本质上,专家并行 ​ (Expert ​Parallelism**)** 在这里发挥了关键作用,将专家分布到多个 GPU 上,在不同时激活所有参数的情况下确保了并行效率。

3、多令牌预测 (MTP)

  • MTP 通过允许模型同时预测多个令牌,提高了预训练效率和推理速度。
  • 这对以下方面特别有利:
    • 降低文本生成延迟。
    • 提高大规模部署中推理任务的吞吐量。
  • 虽然 MTP 尚未在 Hugging Face Transformers 中完全支持,但 SGLangvLLM 等专用框架已经实现它以提高服务效率。

4、稳定性优化

  • Qwen3-Next 结合了零中心和权重衰减的层归一化** (zero-centered and weight-decayed layer normalization)**,以及其他稳定性改进。
  • 这些确保了:
    • 预训练期间更好的收敛性。
    • 降低梯度爆炸的风险。
    • 预训练和后训练阶段的鲁棒性得到改善。

性能亮点

Qwen3-Next-80B-A3B-Instruct 展示了令人印象深刻的基准性能,可与更大的模型(如 Qwen3-235B)相媲美,同时为超过 32K 令牌的上下文提供了 ​10 倍的推理吞吐量​。

基准测试 Qwen3-32B Qwen3-235B Qwen3-Next-80B
MMLU-Pro 71.9 83 80.6
GPQA 54.6 77.5 72.9
AIME25 20.2 70.3 69.5
LiveCodeBench v6 29.1 51.8 56.6
Arena-Hard v2 (GPT-4.1 eval) 34.1 79.2 82.7

在 RULER 长上下文基准测试 中,Qwen3-Next 获得了令人印象深刻的 91.8% 平均准确率,表明它能够在不分散注意力或不牺牲准确性的情况下处理非常长的文本。即使处理多达 ​100 万个令牌 ​(相当于阅读一份巨型文档),由于一种名为 YaRN​ 缩放 的方法,模型仍能保持一致,YaRN 有助于模型高效地管理和记忆长上下文。

如何使用 Qwen3-Next-80B-A3B-Instruct

安装

在安装之前,需要确认安装了最新版本的 Hugging Face Transformers:

复制代码
pip install git+https://github.com/huggingface/transformers.git@main
快速入门示例
复制代码
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-Next-80B-A3B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, dtype="auto", device_map="auto")

prompt = "Give me a short introduction to large language models."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
使用 Qwen 实现 Agent 能力

Qwen3 的 Agent 潜力通过工具调用得以彰显。

你可以将其与 Qwen-Agent 集成,后者使用 模型上下文协议 (Model Context Protocol, MCP) 配置来简化工具管理。

示例:

复制代码
from qwen_agent.agents import Assistant

llm_cfg = {
    'model': 'Qwen3-Next-80B-A3B-Instruct',
    'model_server': 'http://localhost:8000/v1',
    'api_key': 'EMPTY',
}

tools = [
    {'mcpServers': {
        'time': {'command': 'uvx', 'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']},
        "fetch": {"command": "uvx", "args": ["mcp-server-fetch"]}
    }},
    'code_interpreter',
]

bot = Assistant(llm=llm_cfg, function_list=tools)
messages = [{'role': 'user', 'content': 'Summarize the latest Qwen3-Next advancements.'}]
for responses in bot.run(messages=messages):
    pass
print(responses)
使用 YaRN 处理超长上下文

Qwen3-Next 原生支持 262K 令牌,但可以使用 ​YaRN (Yet Another RoPE ​Normalization ​**)** 缩放扩展到 ​1M 令牌​。

将以下内容添加到你的 config.json 中:

复制代码
"rope_scaling": {
  "rope_type": "yarn",
  "factor": 4.0,
  "original_max_position_embeddings": 262144
}

或者通过 CLI 用于 vLLM:

复制代码
vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":262144}'

YaRN 确保了即使在极长的上下文中也有稳定的注意力模式,使其成为文档分析、代码库或 Agent 记忆任务的理想选择。

Qwen3-Next-80B-A3B-Instruct-int4-AutoRound

Qwen3-Next-80B-A3B-Instruct INT4 混合模型是原始 Qwen3-Next-80B-A3B-Instruct 的​量化版本 ​。该模型已针对专家层进行了 INT4 精度 优化,组大小为 128,并采用对称量化,而非专家层则退回到 ​8 位 ​。此过程​大幅减小了模型大小​,从而使模型更快、更高效、运行成本更低。

这种混合精度 设置在不改变模型行为的情况下减少了内存使用并加快了推理速度。量化是​通过 Intel 的 AutoRound (RTN​​**) 自动生成的**​,没有进行算法调优。

什么是模型量化中的 AutoRound?

AutoRound 是一种工具,通过​减少用于存储模型权重(量化)的位数 ​(有时低至 2-4 位),帮助使像语言模型或视觉语言模型这样的大型 AI 模型变得​更小、更快​。

简单来说:

  • 压缩模型,使其占用更少的内存和计算资源,同时仍保持预测的准确性。
  • AutoRound 使用像符号梯度下降 这样的智能技术来自动完成此操作,几乎不需要调优
  • 它适用于各种硬件,并与 TransformersvLLM 等流行库集成,使得在实际应用中运行这些更小、更快的模型变得容易。

本质上,AutoRound 使得巨大的 AI 模型可以在不损失太多"脑力"的情况下​更有效地运行​。

在 DigitalOcean Droplets 上运行 Qwen3-Next-80B

接下来,我们将介绍在 Droplet 上设置和运行 Qwen3-Next-80B-A3B-Instruct-int4-mixed-AutoRound 模型的步骤。因为它速度快、内存占用小,所以即使只用 CPU (而非 GPU 服务器)来跑,这个模型也相当给力。

第 1 步:登录 DigitalOcean 并创建 Droplet

首先,登录你的 DigitalOcean 账户,并创建一个符合你项目需求的 Droplet。

这个 Droplet 将作为你运行模型的云环境。

第 2 步:创建虚拟环境

创建虚拟环境可以保持你的依赖项干净且隔离。

复制代码
python3 -m venv venv
source venv/bin/activate

这确保了你安装的 Python 包不会与系统级包发生冲突。

第 3 步:安装所需的依赖项

接下来,安装 PyTorch、Hugging Face Transformers、Accelerate 和 Hugging Face Hub。

复制代码
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 
pip install git+https://github.com/huggingface/transformers 
pip install git+https://github.com/huggingface/accelerate 
pip install huggingface_hub

这些库提供了加载、管理和高效运行大型语言模型的工具。

第 4 步:向 Hugging Face 进行身份验证

登录你的 Hugging Face 账户以访问模型仓库。

复制代码
hf auth login

在提示时粘贴你的 Hugging Face 访问令牌。

第 5 步:加载模型和分词器

现在,让我们下载并初始化 Qwen3-Next-80B-A3B-Instruct-int4-mixed-AutoRound 模型及其分词器。

复制代码
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Intel/Qwen3-Next-80B-A3B-Instruct-int4-mixed-AutoRound"# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
  model_name,
  dtype="auto",
  device_map="auto",
)

此代码自动加载量化模型并将其映射到可用设备(CPU 或 GPU)。

注意: 量化模型有 9 个 shard(分片),而原始 80B 模型有 41 个 shard,使其加载和运行起来轻便得多。

第 6 步:测试模型推理

模型准备就绪后,你可以通过生成文本响应来测试它。

复制代码
# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt},
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512,
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

content = tokenizer.decode(output_ids, skip_special_tokens=True)

print("content:", content)
"""
content: A large language model (LLM) is a type of artificial intelligence system trained on vast amounts of text data to understand and generate human-like language. These models, such as GPT, PaLM, or LLaMA, use deep learning architectures---typically based on the transformer network---to predict the next word in a sequence, enabling them to answer questions, write essays, translate languages, and even code. LLMs learn patterns, context, and relationships in language without explicit programming, making them versatile tools for a wide range of natural language tasks. Their scale---often with billions or trillions of parameters---allows them to capture nuanced linguistic features, though they also require significant computational resources and raise important ethical and safety considerations.
"""

量化的 AutoRound 版本在 CPU 上的性能尚可,因此非常适合本地测试,尽管在 GPU 上运行时可以获得最佳结果。

常见问题解答 (FAQ's)

Q1:Qwen3-Next-80B-A3B-Instruct 与其他 ​LLM​ 有何不同?

A1:它结合了混合注意力、专家混合和多令牌预测,可以高效地处理非常长的上下文,提供更快、更具成本效益的推理。

Q2:什么是混合注意力?

A2:混合注意力混合了不同的注意力机制,以关注文本中的短期和长期信息,从而提高模型的上下文理解能力。

Q3:什么是高稀疏度专家混合 (MoE​**)?**

A3:MoE 将模型分成更小的专家网络,并且每个输入只激活少数几个,从而节省计算和内存,同时保持高性能。

Q4:什么是多令牌预测 (MTP​**)?**

A4:MTP 允许模型一次预测多个词,而不是一次一个,从而加快文本生成速度。

Q5:什么是 ​YaRN​ 缩放?

A5:YaRN 缩放通过改进模型跟踪令牌位置的方式,帮助模型管理极长序列,即使在数百万个令牌的情况下也能实现稳定性能。

Q6:什么是 AutoRound?

A6:AutoRound 是一种量化工具,它将大型模型压缩成低位格式(2-4 位),同时保持高准确性,使其更快、占用内存更少。

Q7:混合精度模型如何工作?

A7:在混合精度设置中,专家层使用较低精度(例如 INT4),而非专家层使用稍高精度(例如 INT8),以平衡效率和性能。

Qwen3-Next-80B-A3B-Instruct 是构建高效模型方面迈出的重要一步。它的变体 Qwen3-Next-80B-A3B-Instruct-int4-mixed-AutoRound 证明了量化如何在不影响性能的情况下使这些大型模型更易于使用。Qwen-Next 系列展示了模型如何在保持准确性的同时处理更长的上下文。此外,量化版本通过减少内存和计算需求,使这些模型的应用更加实用。

在 DigitalOcean Droplets 服务器上运行这些模型增加了便利性,允许开发者和研究人员快速建立高性能环境,而无需设置复杂的底层基础设施。当然,你也可以采用 DigitalOcean 的 GPU Droplet,比如 H100、H200、L40S、RTX 6000 Ada、RTX 4000 Ada,或者 AMD MI300X、MI325X,这些 GPU 服务器可提供按需实例,价格也比大多数传统大型云平台要便宜,更多细节可咨询DigitalOcean 中国区独家战略合作伙伴卓普云 aidroplet.com。

有了合适的工具和平台,任何人都可以探索大规模 AI,测试新想法,并创建令人兴奋的应用程序,以推动 AI 在理解和处理语言方面能力的极限。

相关推荐
WWZZ20253 小时前
快速上手大模型:机器学习3(多元线性回归及梯度、向量化、正规方程)
人工智能·算法·机器学习·机器人·slam·具身感知
deephub4 小时前
深入BERT内核:用数学解密掩码语言模型的工作原理
人工智能·深度学习·语言模型·bert·transformer
PKNLP4 小时前
BERT系列模型
人工智能·深度学习·bert
兰亭妙微4 小时前
ui设计公司审美积累 | 金融人工智能与用户体验 用户界面仪表盘设计
人工智能·金融·ux
mortimer5 小时前
零依赖、高效率的语音转文字c++版 whisper.cpp (附批量处理脚本)
开源·github
AKAMAI5 小时前
安全风暴的绝地反击 :从告警地狱到智能防护
运维·人工智能·云计算
岁月宁静5 小时前
深度定制:在 Vue 3.5 应用中集成流式 AI 写作助手的实践
前端·vue.js·人工智能
galaxylove5 小时前
Gartner发布数据安全态势管理市场指南:将功能扩展到AI的特定数据安全保护是DSPM发展方向
大数据·人工智能
格林威5 小时前
偏振相机在半导体制造的领域的应用
人工智能·深度学习·数码相机·计算机视觉·视觉检测·制造