Qwen-AgentWorld完整部署指南:免费开源,性能超GPT-5.4,5分钟跑起来

阿里甩出"语言世界模型"重磅炸弹:Qwen-AgentWorld 全面解析,七域统一、性能超 GPT-5.4

发布日期: 2026-06-24

标签: Qwen 大模型 AI Agent 语言世界模型 LLM 开源

摘要: 阿里通义千问今日发布首个原生语言世界模型 Qwen-AgentWorld,单一模型覆盖 7 大智能体交互领域,旗舰版 397B 在 AgentWorldBench 评测中超越 GPT-5.4、Claude Opus 4.8,全面开源。本文从背景、技术架构、性能对比、部署实战四个维度深度解析。


一、背景:为什么需要"语言世界模型"?

近两年,AI Agent 赛道爆发式增长------从网页操作、终端命令、手机自动化到软件工程,智能体正在从"聊天工具"变成"能干活的数字员工"。然而,训练一个优秀的 Agent 需要海量真实环境交互,成本极高:

  • 搭环境繁琐,维护代价大
  • 数据收集慢,无法快速扩展
  • 真实环境存在风险,不便注入受控扰动进行对抗训练

语言世界模型(Language World Model, LWM) 正是为解决上述痛点而生------让一个大模型直接扮演"环境"的角色 ,预测智能体执行某个动作后的下一个环境状态,从而在纯模拟中训练和评估智能体,彻底绕开真实环境的限制。

2026年6月24日,阿里通义千问(QwenLM)正式发布 Qwen-AgentWorld ,这是业界首个原生 语言世界模型,也是首个在单一模型内统一七大交互领域 的世界模型。配套评测基准 AgentWorldBench 同步开源。

📌 技术报告arXiv:2606.24597

📌 GitHubQwenLM/Qwen-AgentWorld

📌 HuggingFaceQwen/Qwen-AgentWorld

📌 ModelScopeQwen-AgentWorld


二、核心理念:何为"原生"世界模型?

"原生"是 Qwen-AgentWorld 最关键的标签,与同类工作的本质区别在于:

对比维度 传统做法(事后适配) Qwen-AgentWorld(原生)
训练起点 通用 LLM 微调 从 CPT 阶段即以环境建模为目标
训练流程 仅 SFT / RL CPT → SFT → RL 全流程贯通
环境知识注入 数据增强 预训练级别的知识内化
领域覆盖 单一/少量领域 七大领域一个模型

换言之,Qwen-AgentWorld 并非拿一个通用模型来"套模板",而是从最底层的预训练阶段就将**"我是环境,我要预测下一个状态"**作为核心训练目标。这使得模型对环境动态的理解更深入、更系统。


三、七大领域:文本 + GUI 全覆盖

Qwen-AgentWorld 将智能体交互场景拆分为两大类、七个领域:

复制代码
┌──────────────────────────────────────────┐
│             Qwen-AgentWorld              │
│                                          │
│  文本类环境          GUI 类环境          │
│  ┌──────────┐       ┌──────────────────┐ │
│  │  MCP     │       │  Web             │ │
│  │  Search  │       │  OS              │ │
│  │  Terminal│       │  Android         │ │
│  │  SWE     │       └──────────────────┘ │
│  └──────────┘                            │
└──────────────────────────────────────────┘
领域 类型 说明
MCP 文本 工具调用(Model Context Protocol)
Search 文本 网络搜索交互
Terminal 文本 Linux 终端命令执行
SWE 文本 软件工程任务(代码修复等)
Web GUI 网页浏览操作
OS GUI 桌面操作系统交互
Android GUI 移动端应用操作

⚙️ 特别设计 :针对三个 GUI 领域,环境观测以可渲染代码而非像素帧呈现,从而让纯文本世界建模也能覆盖视觉环境,降低了模型的输入复杂度。

训练数据方面,模型基于超过 1000 万条真实世界交互轨迹进行训练。


四、三阶段训练流水线

Qwen-AgentWorld 的核心技术亮点是贯通 CPT → SFT → RL 的三阶段训练管线:

阶段一:CPT(持续预训练)------ 注入环境知识

  • 通过学习大量真实环境交互轨迹,将"环境动态知识"嵌入模型权重
  • 引入轮次级别的信息论损失掩码,精准识别真正承载环境信息的对话轮,避免干扰轮次带来噪声

阶段二:SFT(监督微调)------ 激活链式推理

  • 将"下一状态预测"能力激活为思维链(Chain-of-Thought)推理模式
  • 模型学会"先想为什么,再预测结果",而非直接输出答案

阶段三:RL(强化学习)------ 精炼保真度

  • 采用混合奖励信号(GSPO 算法)优化输出质量
  • 重点提升模拟的格式规范性、事实准确性、上下文一致性、真实感和整体质量

💡 涌现能力:研究团队发现,训练后模型涌现出三种有趣的推理模式:

  • 🔄 自我修正:使用 "Wait!" 作为自我纠错的触发信号
  • 🛡️ 信息泄漏防护:在 Search 领域能防止摘要意外透露目标答案
  • 🔗 多步因果推理:预测某些特定命令输出需要一条 6 步推理链

五、开源模型清单

模型 参数规模 激活参数 上下文长度 定位
Qwen-AgentWorld-35B-A3B 35B 3B 256K tokens 轻量高效版
Qwen-AgentWorld-397B-A17B 397B 17B --- 旗舰性能版
AgentWorldBench --- --- --- 配套评测数据集

35B-A3B 模型架构细节

  • 基座模型:Qwen3.5-35B-A3B-Base
  • 架构类型:因果语言模型(混合线性注意力 + MoE)
  • 隐藏维度:2048
  • 层数:40 层(每 4 层为一组:3×GatedDeltaNet + 1×GatedAttention + MoE)
  • 专家数量:256 个,每次激活 8 个路由专家 + 1 个共享专家
  • 上下文长度:262,144 tokens(建议最低保持 128K)

六、性能对比:AgentWorldBench 评测结果

AgentWorldBench 从五个维度评分(Format、Factuality、Consistency、Realism、Quality),归一化至 0--100 分,得分越高越好。

完整排行榜(Overall 降序)

模型 MCP Search Terminal SWE Android Web OS Overall
Qwen-AgentWorld-397B-A17B 68.24 37.82 57.73 68.49 60.20 50.98 67.89 58.71 🏆
GPT-5.4 70.10 37.26 53.69 66.29 60.00 51.80 68.58 58.25
Claude Opus 4.6 69.90 29.30 57.51 64.55 61.74 51.42 70.20 57.80
Claude Opus 4.8 54.93 35.14 59.18 64.10 61.50 54.66 66.62 56.59
Claude Sonnet 4.6 70.00 28.79 56.98 64.52 58.03 50.78 63.17 56.04
Qwen-AgentWorld-35B-A3B 64.79 36.69 53.96 65.63 58.17 49.55 65.92 56.39
Gemini 3.1 Pro 59.07 30.21 52.47 59.07 61.40 52.83 66.92 54.57
Qwen3.5-397B-A17B 68.31 30.81 55.30 64.44 54.90 48.55 60.85 54.74
DeepSeek-V4-Pro 63.27 27.61 51.26 59.44 55.17 50.32 63.70 52.97
Qwen3.5-35B-A3B(基础版) 57.87 25.98 46.13 47.58 53.18 47.10 56.27 47.73

核心结论:

  • 🏆 Qwen-AgentWorld-397B-A17B 整体得分 58.71超越 GPT-5.4(58.25),登顶榜首
  • 🚀 Qwen-AgentWorld-35B-A3B 在相同 35B 规模下,相比基础版 Qwen3.5-35B-A3B 提升 +8.66 分,超越 Claude Sonnet 4.6

七、四大应用范式与实验数据

范式一:可泛化的 OOD 环境扩展

Qwen-AgentWorld-397B-A17B 在 4000 个分布外 OpenClaw 环境上进行 Sim RL,零样本泛化到全新领域:

训练方式 Claw-Eval QwenClawBench
基础 SFT 65.4 47.9
Sim RL(通用模型模拟器) 66.7 47.8
Sim RL(Qwen-AgentWorld 模拟器) 69.7 55.0
提升量 Δ +4.3 +7.1

范式二:可控模拟 ------ MCP 定向扰动

通过注入定向扰动暴露智能体弱点,优于无扰动的真实环境训练:

配置 Tool Decathlon MCPMark
基础 SFT 32.4 21.5
Sim RL(无控制) 31.5 24.6
Sim RL(有控制) 36.1 33.8
提升量 Δ +3.7 +12.3

完全虚构但自洽的搜索世界中训练,泛化到真实搜索任务:

配置 WideSearch F1 Item WideSearch F1 Row
基础 SFT(35B) 34.02 13.72
+ Sim RL 虚构世界 50.31 24.21
提升量 Δ +16.29 +10.49

范式四:智能体基础模型 ------ LWM RL 热身迁移

使用 LWM RL 热身,无需在智能体任务上做额外 RL 微调,即可全面提升下游性能:

指标 Terminal-Bench 2.0 SWE-Bench Verified SWE-Bench Pro WideSearch F1 Claw-Eval BFCL v4
基础 SFT 33.25 64.47 42.18 33.38 53.60 62.29
+ LWM RL 热身 39.55 67.86 47.42 46.17 64.88 71.25
Δ +6.30 +3.39 +5.24 +12.79 +11.28 +8.96

📌 亮点 :LWM RL 热身训练来源于单轮、非智能体轨迹,却成功迁移到多轮工具调用的复杂 Agent 任务,包括 3 个完全域外任务,说明世界建模知识具有强迁移性


八、快速上手部署

方法一:SGLang 部署(推荐,速度快)

复制代码
pip install sglang

python -m sglang.launch_server \
    --model-path Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tp-size 4 \
    --context-length 262144 \
    --reasoning-parser qwen3

启动后,OpenAI 兼容 API 地址:http://localhost:8000/v1

方法二:vLLM 部署

复制代码
pip install vllm

vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
    --port 8000 \
    --tensor-parallel-size 4 \
    --max-model-len 262144 \
    --reasoning-parser qwen3 \
    --trust-remote-code

方法三:Transformers 本地推理

复制代码
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen-AgentWorld-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto",
)

# 以 Terminal 域为例:让模型预测命令输出
messages = [
    {
        "role": "system",
        "content": "You are a language world model simulating a Linux terminal environment. "
                   "Given the user's command, predict the terminal output."
    },
    {
        "role": "user",
        "content": "Action: execute_bash\nCommand: ls -la /home/user/project/"
    }
]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048, temperature=0.6)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True)
print(response)

方法四:通过 API 调用(配合 SGLang/vLLM)

复制代码
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

messages = [
    {
        "role": "system",
        "content": "You are a language world model simulating a Linux terminal environment."
    },
    {
        "role": "user",
        "content": "Action: execute_bash\nCommand: pwd"
    }
]

response = client.chat.completions.create(
    model="Qwen/Qwen-AgentWorld-35B-A3B",
    messages=messages,
    max_tokens=32768,
    temperature=0.6,
)
print(response.choices[0].message.content)

💡 最佳实践

  • 采样参数推荐:temperature=0.6top_p=0.95top_k=20
  • 推荐输出长度:32,768 tokens(长轨迹可适当增大)
  • 使用 GitHub 仓库 prompts/ 目录下的七领域专用系统提示以获得最佳模拟效果
  • 上下文长度至少保持 128K(模型默认 256K),否则影响多轮模拟质量

九、AgentWorldBench 评测流程

如果你希望在 AgentWorldBench 上测试自己的世界模型,三步搞定:

复制代码
# 1. 克隆评测仓库
git clone https://github.com/QwenLM/Qwen-AgentWorld.git
cd Qwen-AgentWorld

# 2. 下载评测数据集
huggingface-cli download Qwen/AgentWorldBench --repo-type dataset --local-dir ./AgentWorldBench

# 3. 安装依赖
pip install openai

cd eval

# Step 1:世界模型推理
python eval.py infer \
    --data-dir ../AgentWorldBench \
    --model-base-url http://localhost:8000/v1 \
    --model-name Qwen/Qwen-AgentWorld-35B-A3B \
    --output-dir ./results

# Step 2:LLM 裁判评分(需要 OpenAI API Key)
export OPENAI_API_KEY="your-api-key"
python eval.py judge \
    --predictions ./results/predictions.jsonl \
    --judge-base-url https://api.openai.com/v1 \
    --judge-model gpt-5.2-2025-12-11 \
    --output-dir ./results

# Step 3:汇总输出分数
python eval.py score --predictions ./results/judged.jsonl

每条测试样本均配备真实环境执行所得的 ground-truth 观测数据,五个维度全面评估世界建模能力。


十、微调建议

如果你希望针对特定领域对模型进行进一步定制,推荐使用以下三个主流框架:

框架 特点 适用场景
Swift 阿里 ModelScope 出品,集成度高 快速实验
LLaMA-Factory 社区最活跃,支持多种训练策略 工程落地
UnSloth 显存优化极致,同等硬件更大模型 资源受限场景

十一、总结与展望

Qwen-AgentWorld 的发布,标志着 AI Agent 领域进入一个新阶段------不再仅仅追求更强的 Agent,而是同步构建能够高保真模拟世界的 LWM。其核心价值在于:

价值维度 具体表现
📦 开源普惠 两个规格的世界模型 + 评测基准全面开源,Apache 2.0 协议
🌍 七域统一 首个同时覆盖文本与 GUI 七大 Agent 交互领域的单一模型
🧪 训练加速 为 Agent RL 提供高效可扩展的模拟环境,大幅降低真实环境依赖
🎯 可控实验 支持受控扰动与虚构世界构建,解锁真实环境无法实现的训练场景
🔄 迁移能力 LWM RL 热身可迁移至域外 Agent 任务,具备强泛化性
🏆 顶尖性能 397B 旗舰版整体超越 GPT-5.4,35B 版超越 Claude Sonnet 4.6

如果你正在开发 AI Agent、研究强化学习训练环境,或是希望深入理解世界模型方向的最新进展,Qwen-AgentWorld 是当前最值得关注的开源项目之一。


参考资料


免责声明:本文为技术介绍性文章,性能数据均来自官方评测基准 AgentWorldBench,实际应用效果因场景而异。