目录

AI 用电脑比你还溜?Agent S2 让复杂任务一键搞定

✨ Yumuing 博客

🚀 探索技术的每一个角落,解码世界的每一种可能!

💌 如果你对 AI 充满好奇,欢迎关注博主,订阅专栏,让我们一起开启这段奇妙的旅程!

📜 文献卡

英文题目: Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents;
作者: Saaket Agashe; Kyle Wong; Vincent Tu; Jiachen Yang; Ang Li; Xin Eric Wang
DOI : 10.48550/arXiv.2504.00906
摘要 : Computer use agents automate digital tasks by directly interacting with graphical user interfaces (GUIs) on computers and mobile devices, offering significant potential to enhance human productivity by completing an open-ended space of user queries. However, current agents face significant challenges: imprecise grounding of GUI elements, difficulties with long-horizon task planning, and performance bottlenecks from relying on single generalist models for diverse cognitive tasks. To this end, we introduce Agent S2, a novel compositional framework that delegates cognitive responsibilities across various generalist and specialist models. We propose a novel Mixture-of-Grounding technique to achieve precise GUI localization and introduce Proactive Hierarchical Planning, dynamically refining action plans at multiple temporal scales in response to evolving observations. Evaluations demonstrate that Agent S2 establishes new state-of-the-art (SOTA) performance on three prominent computer use benchmarks. Specifically, Agent S2 achieves 18.9% and 32.7% relative improvements over leading baseline agents such as Claude Computer Use and UI-TARS on the OSWorld 15-step and 50-step evaluation. Moreover, Agent S2 generalizes effectively to other operating systems and applications, surpassing previous best methods by 52.8% on WindowsAgentArena and by 16.52% on AndroidWorld relatively. Code available at github.com/simular-ai/....

⚙️ 内容

破解计算机使用代理的三大 "任督二脉"

你是否遇到过这样的场景:让 AI 帮忙在电脑上调整屏幕亮度,它却误点了其他按钮;让它在表格里计算数据,半天找不到对应的单元格。这背后暴露了当前计算机使用代理的三大 "软肋":

  1. GUI 元素定位像 "蒙眼抓球":传统代理靠单一模型处理所有界面元素,遇到菜单、表格、图片等不同类型的控件,就像蒙着眼在一堆球里找特定颜色的球,经常抓错。比如要点击 "文件" 菜单里的 "另存为",可能因为菜单层级复杂或界面布局变化,始终定位不准。
  2. 长时任务规划如 "刻板执行剧本":面对需要 10 步以上的复杂任务(比如制作包含图表和数据的报表),传统代理只会按预设剧本执行,一旦中间出现弹窗干扰或界面更新,就像演员忘词一样卡住,无法灵活调整后续步骤。
  3. 通用模型陷入 "全能却全不能" 困境:用一个 "全能模型" 处理规划、定位、操作等所有任务,就像让一个人同时做医生、厨师和司机,每个领域都不够专业。比如在处理表格时,通用模型可能算错公式,在定位文本时又找不准精确位置。

💡 创新

别担心,Agent S2 带着两大创新 "武器" 来破局了:

武器一:混合接地机制(MoG)------ 组建 "专家梦之队"

想象一下,有三个专业选手组成的团队:

  • 视觉定位专家:擅长 "看截图认位置",只要告诉它 "点击屏幕右下角的保存按钮",就能精准定位到像素级坐标,就像专业的 "屏幕狙击手",连微小的图标都能锁定。
  • 文本定位专家:自带 "OCR 放大镜",专门解决 "找单词边缘" 的难题。比如要选中 "生产力" 这个词的最后一个字 "力",它能通过识别文字坐标,精确到笔画边缘,再也不会多选或少选字符。
  • 结构定位专家:是处理表格的 "数据建筑师",只要告诉它 "在 Excel 的 D 列输入利润公式",就能直接通过单元格值映射,批量处理整个表格,比手动拖拽公式快十倍。

这三个专家各司其职,就像医院的专科医生,比全科医生更擅长解决特定问题,让 Agent S2 在各种界面元素前都能 "指哪打哪"。

武器二:主动分层规划(PHP)------ 动态调整的 "智能指挥官"

传统代理的规划像 "一次性剧本",而 Agent S2 的规划更像 "实时策略游戏":

  1. 高层指挥官(Manager):先把复杂任务拆分成 "小目标",比如 "调整屏幕亮度" 任务,先拆分为 "打开设置""找到显示选项""调节亮度滑块" 三个子目标。
  2. 基层执行者(Worker):负责完成每个子目标,比如在 "打开设置" 时,调用视觉定位专家找到设置图标并点击。
  3. 动态更新计划:每完成一个子目标,指挥官会根据新的界面状态重新评估剩余计划。如果发现 "显示选项" 不在预期位置,会立即调整为 "搜索亮度关键词",就像游戏里根据实时敌情调整战术,灵活应对各种变化。

这种 "规划 - 执行 - 反馈 - 调整" 的循环,让 Agent S2 在长时任务中始终保持 "清醒头脑",即使遇到干扰也能快速修正路线。

🧩 不足

尽管 Agent S2 进步显著,但仍有两处 "成长空间":

  • 极端场景下的专家短板:虽然有三个专家,但面对从未见过的新型界面(比如超复杂的专业软件界面),可能出现 "专家也犯难" 的情况。比如某个小众软件的自定义表格格式,结构定位专家可能需要更多训练数据才能准确处理。
  • 计算成本与效率平衡:主动分层规划需要频繁重新评估计划,在处理极复杂任务时,可能会消耗更多计算资源。未来可以研究 "轻量化规划算法",让 Agent S2 在手机等资源有限的设备上也能高效运行。

🔁 实验卡

💧 数据

研究团队为 Agent S2 准备了三个不同难度的 "考场":

  1. OSWorld(桌面环境考场):包含 369 个真实任务,覆盖 Ubuntu 系统的文件管理、文档编辑(如 LibreOffice)、浏览器操作(Chrome)等,就像 "计算机使用的全能考试"。
  2. WindowsAgentArena(Windows 专属考场):154 个任务聚焦 Windows 系统,涉及 Edge 浏览器、记事本、计算器等常用工具,检验跨系统适应能力。
  3. AndroidWorld(移动设备考场):116 个手机任务,覆盖 20 个 Android 应用(如微信、相册),考察在小屏幕上的交互能力。

👩🏻‍💻 实现

Agent S2 的 "三层架构" 如何协作?

  1. 数据预处理:
    • 对每个任务的截图进行 "图像清洗",去除无关噪声(如弹窗广告),让视觉定位专家看得更清楚。
    • 将用户指令拆解为 "动作 + 目标" 结构,比如 "在 Excel 中插入新列" 拆解为 "插入动作 + 新列目标",方便 Manager 规划。
  2. 核心组件协作:
    • Manager 先用 Claude-3.7-Sonnet 等大模型生成初始子目标,比如 "制作年度报表" 任务,拆分为 "创建表格""输入数据""生成图表" 三个子目标。
    • Worker 根据子目标生成具体动作,如 "输入数据" 对应 "type" 动作,并调用文本定位专家确定单元格位置。
    • 每个动作完成后,Worker 反馈结果给 Manager,Manager 再根据新截图和动作历史,用 "思考模式" 动态调整后续子目标,就像人类一边做事一边思考下一步。

🔬 实验

用数据说话,Agent S2 到底有多强?

  1. OSWorld 考场成绩:
    • 15 步任务成功率 27%,比之前的最强基线(UI-TARS)提升 18.9%,相当于考试从 80 分涨到 95 分,简单任务处理又快又准。
    • 50 步长任务成功率 34.5%,提升 32.7%,复杂任务的优势更明显,比如处理需要 10 多个步骤的 "多应用协作任务",成功率比传统代理高近三分之一。
  2. 跨系统表现:
    • WindowsAgentArena:成功率 29.8%,比依赖 accessibility tree(类似界面结构指南)的基线方法还高 52.8%,证明仅靠截图也能在 Windows 上 "玩转" 各种应用。
    • AndroidWorld:54.3% 的成功率,比之前的最佳方法提升 16.5%,在手机上的点击、滑动等操作更加精准,比如在输入法切换、联系人添加等任务上表现突出。
  3. 消融实验:拆零件看性能:
    • 去掉混合接地机制,成功率下降约 5%-8%,尤其是表格和细粒度文本任务,证明 "专家团队" 不可或缺。
    • 关掉主动分层规划,长任务成功率暴跌 10%,说明动态调整对复杂场景至关重要,就像开车没有导航,容易迷路。

📜 结论

  1. 突破点:
    • 精度突破:混合接地让 GUI 定位误差降低 40%,从 "大概位置" 到 "精确像素"。
    • 灵活突破:主动规划使长任务成功率提升 30%,能应对 50 步以上的 "马拉松式" 任务。
    • 通用突破:跨 Windows、Android 等系统的成功率均超 25%,打破 "单系统专用" 的局限。
  2. 启示: 单一的 "全能模型" 不如 "通用模型 + 专家模型" 的组合,就像医生团队中需要全科医生和专科医生配合,AI 代理也需要分工协作,才能在复杂任务中发挥最佳性能。

🤔 总结卡

👍 论文优点

为行业竖起 "三个标杆"

  1. 技术标杆:首次证明 "混合专家 + 分层规划" 的组合能显著提升代理性能,为后续研究提供了可复制的框架。
  2. 数据标杆:在三大主流基准测试中刷新 SOTA,用真实数据证明跨平台、跨任务的有效性,避免 "实验室自嗨"。
  3. 实践标杆 :开源代码(github.com/simular-ai/...

🎓 方法创新

Agent S2 的核心不是发明全新技术,而是 "旧技术的新组合":

  • 分工革命:把接地任务拆分为视觉、文本、结构三类,分别用专用模型处理,就像把工厂流水线细分,每个工人专注一道工序,效率和精度双提升。
  • 动态革命:从 "被动反应"(等任务失败再调整)到 "主动规划"(每一步后都预判下一步),就像从 "事后救火" 到 "事前预防",大幅减少错误成本。

⌚ 未来展望

  1. 专家团队扩容:加入更多领域专家,比如 "视频定位专家""3D 界面专家",让 Agent S2 能处理更复杂的多媒体任务。
  2. 轻量化部署:优化算法,让 Agent S2 能在低配电脑、手机甚至智能手表上运行,走进更多 "轻量化场景"。
  3. 自主学习:赋予 Agent S2 "边做边学" 的能力,遇到新界面元素时,能自动从历史数据中学习规律,减少人工标注成本。

🙋‍♀️ 论文QA

如何通过模块化设计突破单一模型在 GUI 接地任务中的性能瓶颈?**

在计算机使用代理领域,精准定位 GUI 元素(如菜单、表格单元格、文本字段)是核心挑战。传统方法依赖单一通用模型处理视觉、文本、结构等多模态接地任务,导致定位精度不足(如 OSWorld 基准测试中传统代理成功率仅 20%-25%)。文档提出的 ** 混合接地机制(Mixture of Grounding, MoG)** 通过分工协作的专家模型(视觉、文本、结构接地专家)解决这一问题。然而,如何设计专家模型的协作策略?不同专家的能力边界如何划分?其性能提升的理论依据是什么?

  • 术语解读
    • GUI 接地:将自然语言描述的界面元素映射到屏幕像素坐标或结构化数据位置的过程。
    • 混合专家(Mixture-of-Experts, MoE):通过门控机制动态选择专用模型处理特定子任务的架构,本文中演化为 MoG。
  • 文档核心解决方案
    1. 专家分工策略:
      • 视觉接地专家(如 UI-TARS 模型)处理基于截图的像素级定位,适用于图标、按钮等视觉特征明显的元素。
      • 文本接地专家(OCR 技术)解决细粒度文本定位(如单词边缘坐标),弥补视觉模型在文字精度上的不足。
      • 结构接地专家(如 UNO 接口)处理表格数据,通过单元格值映射批量操作结构化内容。
    2. 协作机制:Worker 模块作为 "门控器",根据动作类型(点击、输入、拖拽)动态路由至对应专家,避免通用模型 "全能但不精" 的缺陷。
  • 潜在研究方向
    • 如何量化不同专家的贡献度?(如文档消融实验显示移除文本专家导致子任务成功率下降 5.4%)
    • 跨专家冲突如何解决?(如视觉与结构专家对同一表格元素的定位差异)

主动分层规划(PHP)如何提升长时任务的鲁棒性?其与传统反应式规划的本质区别是什么?

长时任务(如 50 步以上的多应用协作)要求代理动态适应界面变化(如弹窗、状态更新),但传统反应式规划仅在任务失败后调整,导致鲁棒性不足(如 OSWorld 中 50 步任务成功率仅 20%-25%)。文档提出的 ** 主动分层规划(Proactive Hierarchical Planning, PHP)** 通过 "子目标完成 - 环境重评估 - 计划更新" 循环,将成功率提升至 34.5%。其核心优势在于 "预判性调整",但具体如何实现层级间的信息交互?规划粒度(如子目标拆分粗细)如何影响性能?

  • 术语解读
    • 长时任务:需要多步骤、跨应用、跨屏幕操作的复杂任务,如 "生成包含数据图表和格式调整的报告"。
    • 反应式规划:仅在检测到失败时触发调整,类似 "试错法",效率低且易受噪声干扰。
  • 文档核心解决方案
    1. 双层规划架构:
      • 高层 Manager 模块:将用户指令拆解为子目标序列(如 "调整屏幕亮度"→"打开设置"→"定位显示选项"→"调节滑块"),并在每子目标完成后,结合新观察(如设置界面布局变化)重新生成剩余子目标。
      • 基层 Worker 模块:执行原子动作(点击、输入),并通过 MoG 获取精确坐标,反馈执行结果至 Manager。
    2. 动态调整机制:
      • 利用历史动作与当前截图,通过大模型(如 Claude-3.7-Sonnet)推理子目标优先级,避免僵化执行预设脚本。
  • 潜在研究方向
    • 如何平衡规划频率与计算成本?(如文档中 50 步任务比 15 步任务成功率提升 32.7%,但计算耗时增加 2 倍)
    • 子目标拆分的最优粒度如何确定?(过细导致规划碎片化,过粗导致调整不灵活)

跨平台泛化能力是计算机使用代理的关键挑战,Agent S2 如何实现对 Windows、Android 等系统的有效适应?

不同操作系统(Windows/Ubuntu/Android)和设备(桌面 / 手机)的界面布局、交互逻辑差异显著,传统代理常需针对特定系统定制模型,泛化能力弱(如 WindowsAgentArena 中基线代理成功率仅 19.5%)。Agent S2 在 Windows(29.8%)和 Android(54.3%)基准测试中均刷新 SOTA,其跨平台策略有何独特之处?通用性与专用性如何平衡?

  • 术语解读
    • 跨平台泛化:代理在未训练过的操作系统或设备上执行任务的能力,需兼顾界面差异(如 Windows 的注册表设置 vs. Android 的 Activity 组件)。
  • 文档核心解决方案
    1. 输入标准化:
      • 仅依赖截图作为输入(而非特定系统的 accessibility tree),通过视觉接地专家处理不同分辨率、布局的界面,避免系统 API 依赖。
    2. 动作空间抽象:
      • 设计通用动作接口(如 "click""type""drag_and_drop"),通过参数适配不同系统交互逻辑(如 Windows 的右键菜单 vs. Android 的长按操作)。
    3. 知识迁移:
      • 复用 Agent S 的知识库,包含跨系统的高层任务经验(如 "文件保存" 的通用流程)和低层子目标交互模式。
  • 潜在研究方向
    • 如何处理系统特有的复杂操作(如 Windows 的注册表编辑、Android 的权限管理)?
    • 移动端小屏幕场景下,视觉接地的分辨率限制如何突破?(文档中 AndroidWorld 任务平均步骤仅 10 步,长时规划优势未完全体现)

消融实验显示混合接地与主动规划的协同效应显著,如何量化二者的互补性?

文档消融实验表明,移除混合接地机制(MoG)导致成功率下降 5%-8%,移除主动规划(PHP)导致下降 4%-6%,而同时移除两者时性能暴跌 15%。这说明二者存在强互补性,但具体如何协同?是 "规划为接地提供上下文" 还是 "接地为规划提供精确执行保障"?其协同效应的理论基础是什么?

  • 术语解读
    • 消融实验:通过移除模型组件观察性能变化,验证其必要性的实验方法。
  • 文档核心协同机制
    1. 规划为接地提供语义引导:
      • 主动规划生成的子目标(如 "选择最后一段文本")为接地专家提供明确语义约束,缩小定位范围(如文本接地专家仅需在段落内搜索特定短语)。
    2. 接地为规划提供执行反馈:
      • 精确的像素级坐标确保动作执行成功(如点击按钮未偏移),避免规划因执行错误被迫重启,提升长时任务的连续性。
    3. 动态调整强化协同:
      • 若某次视觉接地失败(如按钮被遮挡),主动规划可切换至文本接地专家(通过 OCR 定位按钮文字),形成 "规划容错 - 接地适配" 闭环。
  • 潜在研究方向
    • 如何设计量化指标评估协同效应(如 "规划决策依赖接地结果的频率")?
    • 是否存在 "过协同" 问题?(如过度依赖某专家导致其他组件能力闲置)

错误分析显示规划失败成为主要瓶颈,如何进一步优化高层推理模块的鲁棒性?

尽管 Agent S2 通过 MoG 降低了接地错误,但错误分析显示 "规划失败" 占比最高(41%),主要表现为子目标拆分不合理、任务上下文丢失(如 OSWorld 中多应用协作任务成功率仅 13%-18%)。高层 Manager 模块的推理能力成为新瓶颈,如何结合大模型优化规划逻辑?是否需要引入外部知识增强?

  • 术语解读
    • 规划失败:因子目标序列不合理、环境变化未被正确建模,导致任务无法推进的情况。
  • 文档现有改进策略
    1. 大模型选择:
      • 使用 Claude-3.7-Sonnet 等支持长上下文的大模型,提升子目标连贯性(如 50 步任务中,Claude-3.7-Sonnet 比 GPT-4o 成功率高 7.85%)。
    2. 历史信息利用:
      • 在规划时输入已完成子目标和动作历史,避免上下文断裂(如 "调整亮度" 任务中,记住已打开的设置界面层级)。
  • 潜在优化方向
    1. 任务图谱建模:
      • 构建跨应用的任务依赖图谱(如 "保存文件" 需先 "定位保存按钮" 再 "输入文件名"),约束子目标顺序,减少逻辑错误。
    2. 不确定性建模:
      • 在规划时引入概率推理,评估每个子目标的成功概率(如遇到陌生界面时,优先选择鲁棒性强的接地专家)。
    3. 外部知识注入:
      • 结合领域知识(如 Excel 公式语法、浏览器菜单结构),通过提示工程增强大模型的专业推理能力,降低 "常识性规划错误"。

👁️‍🗨️综合介绍

Agent S 是由 Simular AI 开发的开源框架,让智能体通过图形用户界面(GUI)像人类一样操作电脑。它使用多模态大语言模型和经验学习技术,能完成浏览网页、编辑文档、使用软件等任务。项目在 GitHub 上开源,开发者社区活跃。Agent S1 的论文已于 2025 年被 ICLR 接受,Agent S2 在 2025 年 3 月发布,性能超越 OpenAI 和 Anthropic 的类似工具。它支持 macOS、Windows 和 Linux,适合自动化办公、软件测试和 AI 研究。

🪢功能列表

  • 图形界面操作:模拟鼠标和键盘,与电脑软件互动。
  • 任务分解与规划:将复杂任务拆成小步骤,自动执行。
  • 经验学习:从历史任务中学习,提高效率。
  • 跨平台支持 :可在 macOS(一键安装包)、Windows 和 Linux 上运行。
  • 多模态输入:结合屏幕图像和界面元素,精准操作。
  • 开源定制:提供源代码和文档,开发者可自由调整。
  • 知识库更新:运行时持续更新经验数据,提升智能性。

🔊使用帮助

Agent S 是一个面向开发者的开源工具,安装和使用需要一定编程基础。以下是详细步骤和功能操作说明,帮助用户快速上手。

安装流程

  1. 准备环境

    • 安装 Python 3.9 到 3.12。
    • 安装 Git,用于下载代码。
    • 可选:准备虚拟机(如 VMware),用于测试或隔离环境。
  2. 下载代码

    • 打开终端,运行:

      bash 复制代码
      git clone https://github.com/simular-ai/Agent-S.git
    • 进入项目目录:

      bash 复制代码
      cd Agent-S
  3. 安装依赖

    • 创建虚拟环境(推荐):

      bash 复制代码
      python -m venv venv
      source venv/bin/activate  # macOS/Linux
      venv\Scripts\activate     # Windows
    • 安装核心库:

      复制代码
      pip install gui-agents
    • 设置环境变量(如 API 密钥):

      ini 复制代码
      export OPENAI_API_KEY=<你的密钥>
      export ANTHROPIC_API_KEY=<你的密钥>
      export HF_TOKEN=<你的Hugging Face密钥>
  4. 启动 Agent S

    • 运行 Agent S1 或 S2:

      bash 复制代码
      agent_s1  # 运行 Agent S1
      agent_s2  # 运行 Agent S2
    • 启动后,输入任务即可开始使用。

主要功能操作

图形界面操作

  • 功能说明:通过屏幕截图和界面识别,模拟人类操作。
  • 操作步骤
    1. 运行 agent_s2
    2. 输入任务:"打开记事本并输入'你好'。"
    3. Agent S2 找到记事本图标,点击打开,然后输入文字。
    4. 按 Ctrl+C 可随时停止。

任务分解与规划

  • 功能说明:将复杂任务拆解为小步骤,逐步完成。
  • 操作步骤
    1. 输入:"发送一封邮件给朋友。"
    2. Agent S2 自动执行:打开邮件软件、新建邮件、填写内容、点击发送。
    3. 用户可在终端查看每步日志。

经验学习

  • 功能说明:记录任务过程,优化后续操作。
  • 操作步骤
    1. 完成任务后,经验保存在 gui_agents/kb 文件夹。
    2. 再次运行相似任务,效率会提升。
    3. 开发者可检查知识库文件,了解学习内容。

特色功能操作

跨平台支持

  • 功能说明:支持三大主流操作系统。
  • 操作步骤
    1. Windows 需要安装 pywin32pywinauto
    2. macOS 需要 pyobjc,用 pip install pyobjc 安装。
    3. Linux 检查 pyautogui 兼容性,可能需调整权限。

多模态输入

  • 功能说明:结合图像和界面数据,提高操作准确性。
  • 操作步骤
    1. 输入:"在浏览器中搜索'天气'。"
    2. Agent S2 分析屏幕,找到浏览器窗口,输入搜索词。
    3. 结果自动显示。

知识库下载

  • 功能说明:Agent S2 使用预训练知识库,支持离线运行。

  • 操作步骤

    1. 首次启动时,自动从 GitHub Releases 下载知识库。

    2. 手动下载示例:

      ini 复制代码
      download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
    3. 知识库路径在 kb_data 文件夹。

高级配置

集成 Perplexica 搜索

  • 功能说明:增强 Agent S 的网页知识检索能力。

  • 操作步骤

    1. 安装 Docker Desktop 并启动。

    2. 下载 Perplexica:

      sql 复制代码
      cd Perplexica
      git submodule update --init
    3. 重命名 sample.config.tomlconfig.toml,填写 API 密钥。

    4. 启动服务:

      复制代码
      docker compose up -d
    5. 设置 Perplexica URL:

      bash 复制代码
      export PERPLEXICA_URL=http://localhost:端口/api/search

自定义模型

  • 功能说明:支持多种大模型和自定义端点。

  • 操作步骤

    1. 使用 Claude 模型:

      css 复制代码
      agent_s2 --model claude-3-7-sonnet-20250219
    2. 使用 Hugging Face 端点:

      arduino 复制代码
      agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"

注意事项

  • 首次运行需联网下载依赖和知识库。
  • Linux 用户避免使用 Conda 环境,可能干扰 pyatspi
  • 详细文档在 README.mdmodels.md 中。

👩‍💻应用场景

  1. 办公自动化
    Agent S 能自动填写表格、发送邮件,减少重复工作。
  2. 软件测试
    模拟用户操作,测试软件在不同系统上的稳定性。
  3. AI 研究
    研究者用它探索智能体与电脑交互的技术原理。

🔦使用QA

  1. Agent S2 和 S1 有什么区别?
    S2 是 S1 的升级版,性能更强,支持更多基准测试,如 OSWorld 和 AndroidWorld。
  2. 需要一直联网吗?
    首次安装和下载知识库需要联网,之后可离线运行。
  3. 如何联系社区支持?
    加入 Discord 服务器(discord.gg/E2XfsK9fPV)... GitHub 提交 issue。

🙌Agent S2 技术细节公布:面向通用计算机操作的组合式 AI 框架

构建能够像人类一样熟练使用计算机的智能体,是通往通用人工智能(AGI)道路上的关键挑战之一。这类任务涵盖了从执行开放式数字任务到通过图形用户界面(GUI)导航不熟悉应用程序的广泛场景,其问题空间具有庞大、充满噪声和高度动态的特点。近日,关于 Agent S2 的技术论文正式发布,该研究提出了一个模块化的框架,并在多个计算机使用基准测试中取得了领先性能。

Agent S2 的相关代码已于此前开源。此次发布的技术论文(可于 arXiv 获取)则深入介绍了该系统的核心理念与架构设计。相关研究团队 Simular AI 此前也发布过一篇面向非专业读者的介绍性文章。

Agent S2 概览:组合式智能设计

Agent S2 的核心设计理念是将复杂的计算机操作任务分解,并非依赖单一的、庞大的模型来完成规划、行动和屏幕交互理解的所有工作,而是将这些职责分配给通用规划模块(generalist)和专门化的执行 / 理解模块(specialist)。这种组合式架构旨在模拟人类专家团队的工作方式:高层规划者、低层执行者以及界面交互专家协同工作。

Agent S2 的关键特性包括:

  • 混合基础模型 (Mixture of Grounding, MoG): 利用一套基础专家模型(包括视觉、文本和结构化信息提取)来准确定位 GUI 元素。例如,处理电子表格时可能侧重结构化数据,而点击按钮时则依赖视觉定位。这种设计将交互理解(Grounding)从规划(Planning)中解耦,有效降低了问题的复杂度,使其更符合当前通用推理模型和专用视觉基础模型的训练分布。
  • 主动分层规划 (Proactive Hierarchical Planning, PHP): 该框架能够根据环境反馈动态调整和细化其计划,而不是 rigidly 遵循预设脚本。这使得智能体能更灵活地应对预期之外的情况。

基准测试结果:跨平台性能领先

论文数据显示, Agent S2 在广泛使用的 OSWorld 基准测试中设定了新的性能记录。 OSWorld 主要评估 AI 智能体在模拟操作系统环境中完成文件管理、软件使用、信息检索等多样化任务的能力。

此外, Agent S2 在其他平台上也展现出良好的泛化能力:

  • WindowsAgentArena: 这是一个专注于 Windows 环境下复杂交互任务的基准。 Agent S2 在此测试中的表现,相较于之前的最佳公开结果 (SOTA),提升了 52.8%。
  • AndroidWorld: 该基准测试衡量在 Android 移动操作系统上的任务完成能力。 Agent S2 的表现在此也优于之前的 SOTA 结果,提升了 16.5%。

设计创新:MoG 与 PHP 的协同作用

许多现有计算机智能体在实际应用中面临的主要挑战源于不准确的界面元素理解(即 "基础 grounding" 问题)或过于僵化的计划执行流程。 Agent S2 通过其两大核心设计来应对这些问题:

  • 混合基础模型 (MoG): MoG 机制能够根据当前的交互需求,智能地将任务路由给最合适的专家模型。例如,识别并操作电子表格单元格时,可能会调用基于结构分析的专家;而在点击一个视觉特征明显的按钮时,则切换到视觉基础模型。将基础交互理解与高层任务规划分离,实质上是将一个复杂问题分解为两个相对更简单、更易于模型处理的子问题。
  • 主动规划 (PHP): PHP 模块使智能体能够持续地根据环境中的新观察信息来调整子目标和行动计划。这种适应性模仿了人类在执行任务时,当情况发生变化后重新评估和修正计划的行为模式。

扩展性与错误恢复能力

研究表明,在需要执行更长序列操作的任务中, Agent S2 的组合式架构相比于单一模型(monolithic models)展现出更好的扩展性。其动态适应和自我修正能力使其能够在初步行动未达预期效果时调整策略,从而提高复杂任务的完成率。单一模型往往在长序列任务中更容易因累积误差或规划僵化而失败。

超越桌面环境:在 Android 平台的泛化表现

尽管 Agent S2 的主要开发目标是桌面环境的智能体,但其框架设计在移动环境中也显示了良好的泛化能力。在 AndroidWorld 基准测试中的领先表现证明了其核心理念(如 MoG 和 PHP)对于不同类型 GUI 环境的适用性。

模块化智能体的进展

Agent S2 的研究结果表明,组合式设计不仅是一种架构上的选择,更可能是构建能够稳健地、类人地操作计算机的智能体的有效途径。这项工作为未来在 AI 规划、基础交互理解(grounding)以及多模态协调方面的研究开辟了新的可能性。

感兴趣的读者可以查阅详细的 技术论文 和相关的 开源代码


本文是转载文章,点击查看原文
如有侵权,请联系 xyy@jishuzhan.net 删除
相关推荐
hello_ejb31 分钟前
聊聊Spring AI Alibaba的ObsidianDocumentReader
java·人工智能·spring
桥Dopey14 分钟前
Python常用的第三方模块之【jieba库】支持三种分词模式:精确模式、全模式和搜索引擎模式(提高召回率)
人工智能·python·分词模式
W流沙W14 分钟前
bert学习
人工智能·bert
想学好英文的ikun43 分钟前
【MCP】第二篇:IDE革命——用MCP构建下一代智能工具链
ide·人工智能·python·ai·个人开发·mcp
数据智能老司机1 小时前
使用 FastAPI 构建生成式 AI 服务——与生成模型的实时通信
llm·openai·fastapi
数据智能老司机1 小时前
使用 FastAPI 构建生成式 AI 服务——AI集成与模型服务
llm·openai·fastapi
码上飞扬1 小时前
深度剖析:GPT-3.5与GPT-4的主要区别及架构解析
人工智能
whuzhang161 小时前
3DGS之齐次坐标
人工智能·3d·自动驾驶
闭月之泪舞1 小时前
《深度神经网络之数据增强、模型保存、模型调用、学习率调整》
人工智能·学习·dnn
掘金詹姆斯2 小时前
LangChain4j快速入门(一)
人工智能·langchain