美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准

由美团 LongCat 团队研发的 VitaBench(Versatile Interactive Tasks Benchmark)正式发布,这是当前高度贴近真实生活场景所面临复杂问题的大模型智能体评测基准。

VitaBench 以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体,构建了包含 66 个工具的交互式评测环境,并进行了跨场景的综合任务设计,例如要求 agent 在一个旅行规划任务中通过思考、调用工具和用户交互,完整执行到买好票、订好餐厅的终端状态。

我们首次基于深度推理、工具使用与用户交互三大维度对智能体任务进行了量化拆解,以可控地构建复杂问题。我们发现,即便是当前领先的推理模型,在主榜(复杂跨场景任务)中的成功率也仅有 30%,揭示了现有智能体与复杂真实生活场景应用需求之间的显著差距。VitaBench 现已全面开源,旨在为推进智能体在真实生活场景中的研发与应用提供重要基础设施。

一、研究背景:智能体评测与现实应用间存在巨大鸿沟

随着大语言模型在复杂推理与工具调用能力上的快速进步,基于 LLM 的智能体在真实生活场景中的应用日益广泛。然而,现有的智能体评测基准与现真实生活场景的应用需求之间依然存在显著差距,主要体现在以下几个方面:

  • 工具生态简单化:早期的工具调用基准主要评估单次 API 调用的准确率(如:函数选择、参数填充),忽视了真实工具间的复杂依赖关系与组合调用需求;
  • 信息密度不足:大多数相关基准仅关注单一类型信息,未能反映真实应用场景中多源信息(时空信息、常识信息、多场景服务数据、用户画像、用户历史交易数据等)的综合处理需求;
  • 模型探索性受限:现有基准为了模拟真实生活场景,通常会将领域知识组装成冗长的 Policy 文档要求模型遵循,但是这种做法会限制模型在复杂环境中探索解空间的自主性。同时,这种模式下,除了进行深度思考、有效环境交互的能力外,模型的长文本指令遵循能力也对执行结果有很大影响;
  • 交互动态性缺失:用户作为环境的重要组成部分,大多数交互式 Agent 基准当前没有充分考虑到用户交互行为的多样性、用户需求的模糊性、多轮对话中的意图转移等真实复杂度;

通过对美团生活服务场景的深入分析,LongCat 团队指出:真实世界的任务复杂性,源于三大维度的交织:

  • 推理复杂性:需整合多源信息、自主推理规划任务完成路径;
  • 工具复杂性:需在高度互联的工具图中理解领域特征,精确调用目标工具;
  • 交互复杂性:需在多轮对话中主动澄清、追踪意图、适应多样化的用户行为并给予反馈。

为系统衡量这三重挑战下的模型表现,团队构建了 VitaBench,一个依托"生活服务"场景、高度仿真的综合性 Agent 评测基准。

VitaBench 的评测榜单未来将长期维护更新,欢迎持续关注:

二、理论基础:三维复杂度框架

通过将 Agent 在环境中与 User、Tool 的交互建模为部分可观测马尔可夫决策过程(POMDP),VitaBench 进一步将智能体任务复杂度拆解到各个方面进行量化并提升:

2.1 推理复杂度(𝒞_reason)

量化智能体需要在部分可观测环境中的整合的信息量,具体通过以下指标衡量:

  • 观测空间大小:环境整体信息量,信息越多,任务越难;
  • 部分可观测度:智能体需要通过交互才能观测到的信息占整体信息的比例,比例越大,任务越难;
  • 推理点数量:任务中需要处理的显性与隐性推理点数量,推理点越多,任务越难。

基于此,VitaBench 构建了大规模真实环境数据库,其中单个任务可涉及 5-20 个服务提供商、最多超过 100 个候选产品,每个任务聚合多个真实用户需求,形成复杂的搜索与推理空间。

2.2 工具复杂度(𝒞_tool)

如果将现实中的工具集建模为图,图中顶点代表工具,边代表工具间的依赖关系,那么工具复杂度可以通过以下指标衡量:

  • 图大小与密度:反映解决领域问题需要涉及的工具数量与工具间依赖紧密程度,数值越高,模型掌握工具集的难度越大;
  • 工具调用链路长度与子图覆盖率:解决任务需要完成的工具调用链路越长,所形成的子图占整张图的比例越大,任务的需求覆盖就越广,任务越就越难。

基于此,VitaBench 从三个场景中提炼出 66 个真实工具并构建有向图,将领域规则编码到图结构中。其中工具通过 Python 函数实现,确保工具调用结果的稳定性和一致性。

2.3 交互复杂度(𝒞_interact)

反映智能体在用户的动态多轮对话中的掌控能力,通过以下机制实现:

  • 用户画像系统:基于真实平台数据脱敏构建的多样化用户画像,包含人口属性、饮食偏好、消费历史等信息;
  • 行为属性建模:涵盖情绪表达(急躁、焦虑、冷漠等)、交互模式(细节导向、依赖型、逻辑型等)维度;
  • 动态状态演化:用户状态、意图可能在交互过程中持续变化,要求智能体实时调整对话策略。

基于此,VitaBench 为每个任务都配备了一个独特的用户角色,并通过 User Simulator 扮演,逐步向 Agent 提出需求。

三、VitaBench 基准构建

VitaBench 通过两阶段流程构建:

阶段一:框架设计

  • 工具定义:从三个领域中抽象核心功能,定义 66 个简化但功能完整的 API 工具;
  • 依赖构建:基于工具间的依赖关系构建有向图,将领域规则编码到图结构中;
  • 用户模拟:实现基于语言模型的用户模拟器,支持模糊化需求生成与个性化响应。

阶段二:任务创建

  • 用户画像:基于真实平台数据合成差异化用户特征;
  • 任务指令:融合多个真实用户请求,改写得到复合目标任务;
  • 环境数据:结合真实数据合成扩展,再由人工核验以确保任务可完成;
  • 评估标准:为每个任务制定独立且细粒度的评测标准。

VitaBench 将各领域的规则统一编码到工具图结构中,避免了冗余的领域策略文档(Domain Policy Document)。智能体无需依赖预设规则,而是通过工具描述自行推理领域逻辑。这种设计使 VitaBench 能够灵活支持各种场景与工具集的自由组合。团队基于三个领域共构建了 400 项评测任务,其中包括:

  • 单场景任务(300 项):聚焦于单一场景下的复杂需求;
  • 跨场景任务(100 项):考察智能体在多场景间的切换执行与信息整合能力。

每个任务均由多名专业标注人员和领域专家进行多次校验与复核,既确保任务具备足够的复杂度,又保证其可以顺利完成。数据统计结果如下表所示:

针对长轨迹评估的复杂性,VitaBench 团队还提出了基于 Rubric 的滑动窗口评估器。

传统的基于数据库状态比对的评估方法难以捕捉商品推荐、行程规划等不改变最终状态的行为,无法对 Agent 完成任务的过程进行有效监督。VitaBench 借鉴最新研究,将任务目标拆解为一组原子化评估准则(Rubric),实现了更全面、细粒度的行为覆盖。

评估器通过带重叠的滑动窗口扫描完整对话轨迹,在保持上下文连贯性的同时持续跟踪每个 rubric 的状态,确保跨窗口一致。最终以严格的「全有或全无」标准判断任务完成与否。这种细粒度的设计不仅显著提升了评估的可解释性,也为未来的强化学习工作提供了更密集、更可靠的反馈信号。

四、实验结果与分析

团队在 VitaBench 上评测了包括 GPT-5、Claude-4.1-Opus、Gemini-2.5-Pro、Kimi-K2、GLM-4.5、LongCat-Flash 等在内的 20 余款主流大模型。

实验设置:

  • 实现基于 Function Call 的智能体架构,所有模型使用官方工具调用格式;
  • 用户模拟器基于 GPT-4.1 实现,评估器基于 Claude-3.7-Sonnet 实现;
  • 每个任务运行 4 次,温度均设置为 0.0 以促进稳定输出,计算 Avg@4、Pass@4、Pass^4 指标;
  • 排行榜分为推理和非推理模型两类,对于支持在两种模式之间切换的混合思考模型,我们在两类中分别评估其开启思考和关闭思考的配置。

4.1 主实验结果

主要结论如下:

  • 跨场景任务带来极大挑战:即使是测试中表现最佳的 o3(high)模型,跨场景 Avg@4 成功率也仅为 30.0%,远低于单场景任务的 48.3%,表明当前模型在跨域工具协调与意图整合方面存在根本性短板。
  • 多次尝试(探索)可以提升性能,但同样稳定性堪忧:尽管 Pass@4(至少一次成功)可达 60%,但 Pass^4(四次全成功)接近 0%,说明模型行为高度不稳定,难以满足生产环境可靠性要求。
  • "思考型"模型显著优于"非思考型":启用链式推理(thinking)的模型普遍提升 5--8 个百分点,且交互轮次更少,说明深度规划对复杂任务至关重要。

4.2 复杂性消融实验

团队进一步通过消融实验,验证了 VitaBench 所提出的三大复杂性维度的有效性:

  • 推理复杂性:任务所需推理点数量与成功率呈强负相关。在线旅行与跨场景任务平均包含 9.7--10.3 个推理点,搜索空间相比其他两个领域高出一个量级,成功率也更低。
  • 工具复杂性:工具图的节点与边数量越多,任务越难。跨场景任务涉及 66 个工具、512 条依赖边,是所有任务中最复杂的,成功率也最低。
  • 交互复杂性:在「直接告诉 Agent 完整指令(无用户交互)」条件下,模型成功率显著提升;而引入真实用户模拟器(包含完整人物特征和行为属性)后,性能下降 15--25 个百分点,尤其对弱模型影响更大。

4.3 用户模拟器与评估器可靠性验证

为确保评测结果可信,团队对两个核心组件进行了严格验证:

  • 用户模拟器:在信息保真度(9.48/10)与人格一致性(9.34/10)两项指标上均表现优异,能准确模拟不同用户行为和偏好,且不违背任务要求。
  • 滑动窗口评估器:与人工标注相比,Cohen's κ 达 0.828,显著优于无 Rubric 或无滑动窗口的基线方法。

4.4 典型失败案例分析

在对模型错误案例的系统分析中,团队归纳出三大错误类别:推理相关错误(61.8%)、工具相关错误(21.1%)、交互相关错误(7.9%)。

分析发现,当前模型普遍存在以下具有代表性的失误模式:

  • 模型在涉及时空推理与常识推理的任务中常常忽略细节,反映出其在多维信息整合上的局限。
  • 即便具备正确的工具与条件,模型仍常因对自身能力、工具能力的不确定而提前放弃任务。
  • 当工具调用失败或用户需求模糊时,模型往往重复无效操作,而非主动调整策略进行修复。

这些问题表明,当前通用型智能体在推理、策略调度与自我反思等方面仍存在显著提升空间,为后续研究提供了明确方向。

五、总结与展望

VitaBench 不仅是一个评测基准,更是一套关于「Agentic Task Complexity」的理论框架。它首次系统量化了推理、工具与交互三大维度对智能体性能的影响,并揭示了当前模型在真实生活场景中的能力边界。

我们的目标不仅仅是测量现有模型的智能,更是开启「AI 下半场」,实现通往实用智能体的最后一公里。正如其名 "Vita"(拉丁语 "生命,生活")所寓意的:智能的终极考场,不在实验室,而在生活本身。

VitaBench 现已全面开源,欢迎访问项目官网 vitabench.github.io 获取最新信息。

| 关注「美团技术团队」微信公众号,在公众号菜单栏对话框回复【2024年货】、【2023年货】、【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明"内容转载自美团技术团队"。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至 tech@meituan.com 申请授权。

相关推荐
非凸科技3 小时前
第50届ICPC亚洲区域赛·成都站,非凸科技持续护航顶尖赛事
人工智能·科技
深度学习机器3 小时前
RAG的另一种思路,基于文档树结构的推理型检索
人工智能·算法·架构
skywalk81633 小时前
老显卡老cpu用vllm推理大模型失败Intel(R) Xeon(R) CPU E5-2643 v2
人工智能·pytorch·python·vllm
深度学习机器4 小时前
Agent架构新方向?Claude Skills工作原理解析
人工智能·算法·架构
新智元4 小时前
他发明了价值万亿的 AGI,如今穷困潦倒
人工智能·openai
Baihai_IDP4 小时前
怎样为你的 RAG 应用选择合适的嵌入模型?
人工智能·llm·aigc
工藤学编程4 小时前
零基础学AI大模型之LangChain WebBaseLoader与Docx2txtLoader实战
人工智能·langchain
机器之心4 小时前
AI太空竞赛?英伟达H100刚上天,谷歌Project Suncatcher也要将TPU送上天
人工智能·openai
新智元4 小时前
全球首个「导航大脑」上线!一句话让机器人自己找路回家
人工智能·openai