Agent 评估的两个新基准 WBench + LARYBench：从“测模型能力“到“测系统行为“

来源：美团 LongCat 团队 2026-06-20 发布

双基准：WBench（交互式视频世界模型）+ LARYBench（具身 AI 动作表征）

颠覆发现：通用视觉模型在动作泛化上超越专用具身 AI 专家模型

📌 为什么你现在应该读这篇

如果你做 Agent 工程，大概率你的"评估"环节是这样的------

写完功能让 Agent 跑几次 demo
看看输出"差不多对" 就上线
出问题再补 case

这不叫评估，这叫盲跑。

WBench 和 LARYBench 这两个新基准给出了不同的范式。评估不是"测模型能力"，而是"测系统行为"。前者关注"被动观看 → 主动交互"的能力转变，后者发现通用视觉模型反而比专用具身模型在动作泛化上更强。

三件做 Agent 工程的人不能不知道的事：

① 评估应该测"系统行为"而不是"模型能力"

模型能力测试在 benchmark 上跑分，但 Agent 系统是"模型 + 工具 + 编排"。即使模型能力 100 分，工具调用错了、编排顺序乱了，最终系统行为还是 0 分。WBench 关注的就是这种系统级行为评估。

② "通用 > 专用"颠覆直觉

LARYBench 发现通用视觉模型（比如 CLIP/SAM）在具身动作泛化上超越专门为具身 AI 训练的模型。这个反直觉发现意味着------Agent 工程里"为特定场景训练专用模型"可能是错误投资方向，通用基础模型 + 适配层效率更高。

③ 评估基准应该先于系统设计存在

WBench 设计阶段就定义了"被动 → 主动"评估维度，这意味着系统设计时可以参照这个目标。如果评估在系统做完后才设计，往往是 reverse engineering 已有能力。这种评估没法指导设计。

如果你正在做：(1) Agent 系统但不知道怎么评估；(2) 在纠结"用通用模型还是训专用模型"；(3) 团队在"做完才测"和"边做边测"之间摇摆，下面的方法可以直接借鉴。

论文/基准元信息

发布方：美团 LongCat 团队
WBench：首个交互式视频世界模型多轮评估基准
LARYBench：具身 AI 动作表征"ImageNet 级"评估框架
核心发现：通用视觉模型在动作泛化上 > 专用具身 AI 专家模型
应用方向：世界模型、具身 AI、Agent 评估方法论

核心场景：被动观看 vs 主动交互

想象一下：两个模型都看了 1000 小时驾驶视频。

被动模型 ：能预测下一帧画面（这种模型已经做得很好）

主动模型：能在驾驶交互中做出正确决策（避让、变道、加速）。这是大多数模型做不到的

WBench 的洞察：评估应该聚焦"主动交互"而非"被动预测"。一个能预测下一帧但不能做交互决策的模型，对自动驾驶/机器人/Agent 没有实用价值。

这个洞察的意义远超视频领域。所有 Agent 系统都面临类似问题：

LLM 能"预测下一个 token"（被动） → 不等于能"在多轮对话中做出连贯决策"（主动）
视觉模型能"识别画面里有什么"（被动） → 不等于能"基于画面做下一步动作"（主动）

WBench 的"被动 → 主动"评估维度可以被借鉴到任何 Agent 系统的评估框架中。

LARYBench 的反直觉发现：通用 > 专用

LARYBench 跑了一组对比实验------

专用模型：专门为具身 AI 训练的"动作-视觉"联合模型（用大量机器人操作数据训练）
通用模型：CLIP / SAM 等通用视觉模型（在普通图文数据上训练）

预期：专用模型在具身场景应该完胜

实际：在最难的 28.5% 实例上，通用模型反而超越专用模型

为什么：专用模型在训练数据分布上过拟合，遇到分布偏移（新场景、新物体、新环境）时崩溃。通用模型因为训练数据更广，分布偏移鲁棒性反而更强。

这个发现的工程含义：

"为特定场景训练专用模型"在数据有限时是陷阱
"通用基础模型 + 轻量适配层"是更稳健的工程路径
这也解释了为什么 GPT-4 / Claude 这种通用模型在很多垂直场景比专用小模型还强

三个评估方法论的可借鉴点

借鉴一：评估维度的"被动 → 主动"切分

不要只测"系统能不能识别 / 预测"（被动），还要测"系统能不能在交互中做出连贯决策"（主动）。两者完全是两套指标。

具体到 Agent 系统：

被动：单轮 QA 准确率
主动：多轮任务完成率、用户中断恢复能力、长期目标达成率

后三个才是真实场景的关键指标。

借鉴二：分布偏移测试

不要只在训练分布上测。那只能告诉你"过拟合得多好"。要在分布偏移场景上测：

训练时没见过的话题
用户输入风格变化
工具失败 / API 不可用

LARYBench 的"最难 28.5%"就是分布偏移场景，这是真正区分系统鲁棒性的指标。

借鉴三：评估基准先于系统设计

传统流程：做完系统 → 设计评估

WBench 流程：先设计评估维度 → 再做系统

后者的优势：评估指标变成系统设计的"指南针"。每加一个功能都问"这能让评估指标提升吗"，避免做了一堆不影响真实质量的功能。

So What：三类人的行动清单

🔧 工程师

重新设计你的评估指标 ------ 把当前指标从"准确率/正确率"切换成"任务完成率 + 错误恢复率 + 长期一致性"。后三个才是 Agent 系统的真实指标。
加分布偏移测试集 ------ 你的 benchmark 应该包含"训练时没见过的"场景。如果当前评估都在训练分布上，重新设计 20% 的 case 来自分布外。
明天就能做：选你 Agent 系统最复杂的一个真实任务，故意搞砸一个中间步骤（比如让某个工具返回错误），看 Agent 能不能恢复。这就是分布偏移测试的最简单形式。

📊 技术管理者

评估应该在 sprint 0 就定义 ------ 在团队动手做新功能前，先定义"做完了怎么衡量好坏"。WBench 的设计思路给了一个范本：评估维度先于系统能力。
谨慎投资专用模型训练 ------ LARYBench 证明在很多场景"通用 + 适配"优于"专用训练"。投资专用模型训练前，先做一次通用基础模型 + 适配层的对照实验。
明天就能做：把团队当前所有"评估指标"列出来，标记哪些是"训练分布上的指标"，哪些是"分布偏移指标"。两个比例失衡（前者 > 80%）就是评估系统的危险信号。

🚀 创业者/PM

"通用模型 + 我们的适配"作为产品故事 ------ 客户不需要"我们训了自己的模型"（既贵又脆弱），更需要"我们用最好的通用模型 + 我们的领域适配"。后者在工程稳健性和成本上都更优。
评估能力本身是产品差异化 ------ B 端客户买 Agent 时最关心"出问题怎么办"。能展示"我们有可量化的评估体系"比展示"我们的模型很强"更打动企业决策者。
明天就能做：访谈 3 个潜在客户，问他们"你们怎么判断一个 AI 产品做得好不好？"------大概率没有标准答案。这个空白就是你产品的入口。

⚠️ 方法论局限

WBench 的"主动交互"难以全自动评估 ------ 主动决策的好坏往往需要人工标注或长链路自动判断，评估成本高
LARYBench 的"通用 > 专用"结论场景受限 ------ 在数据极度充足且分布稳定的场景，专用模型仍可能优于通用模型，不能一概而论
基准本身的代表性问题 ------ 任何基准都是真实场景的有限子集，过度优化基准分数可能反而损害真实场景表现
"分布偏移测试"的边界模糊 ------ 多大的偏移算"分布偏移"，没有客观标准，靠工程师判断