OS-Genesis:基于逆向任务合成的 GUI 代理轨迹自动化生成

引言

近年来,图形用户界面 GUI )代理(GUI Agents) 在软件自动化、辅助测试和 AI 驱动的任务执行中扮演着越来越重要的角色。然而,当前的 GUI 代理训练仍然面临 高质量数据稀缺 的核心挑战。现有的方法主要依赖:

  • 人工标注数据:人工设计任务,并手动记录交互数据,成本高昂,且扩展性差。

  • 基于预定义任务的 合成数据:预设 GUI 任务,并利用规则或模型生成轨迹数据,但存在数据多样性不足、泛化性差的问题。

核心问题

  1. 如何高效构建高质量的 GUI 代理 训练数据

  2. 如何减少对人工标注和任务预定义的依赖?

  3. 如何提高 GUI 代理在复杂交互任务中的泛化能力?

OS-Genesis 的贡献

OS-Genesis 提出了一种无监督的 GUI 轨迹数据自动合成框架,其核心思想是:

  • 让代理在 GUI 环境中 主动探索,收集交互数据;

  • 通过 逆向任务合成( RTS 推导任务轨迹,而非依赖人工任务定义;

  • 通过 轨迹奖励模型(TRM) 评估并优化数据质量;

  • 实验表明,OS-Genesis 大幅提升了 GUI 代理的任务完成率,并在 Mobile 和 Web 场景中优于现有方法。

1. OS-Genesis 的系统架构

OS-Genesis 由三个核心模块组成:

1. 探索与数据采集(Exploration & Data Collection)

  • 代理在 GUI 界面中执行交互操作(点击、滚动、输入等)。

  • 记录 GUI 状态变化(pre-stateactionpost-state)。

  • 形成 GUI 交互三元组:⟨S_pre, action, S_post⟩。

2. 逆向任务合成(Reverse Task Synthesis, RTS)

  • 低阶任务(Low-level Instruction)生成:基于 GUI 状态变化生成具体的操作描述,如 "点击设置按钮"。

  • 高阶任务(High-level Instruction)推导:整合多个低阶任务,构建完整的 GUI 任务目标,如 "修改应用设置"。

3. 轨迹构建与奖励模型(Trajectory Construction & Reward Model)

  • 代理执行生成的高阶任务,形成完整轨迹。

  • 轨迹奖励模型(TRM)计算任务完成度(Completion)和逻辑一致性(Coherence)。

  • 低质量轨迹被筛除,仅保留高质量轨迹用于训练。

2. 逆向任务合成(RTS):从交互到任务

2.1 动作记录与 GUI 状态捕捉

在无任务预定义的情况下,OS-Genesis 采用 主动交互 方式,在 GUI 界面中执行以下基本动作:

  • 点击(CLICK)

  • 输入文本(TYPE)

  • 滚动(SCROLL)

  • 切换窗口( SWITCH WINDOW)

每次操作都记录 GUI 界面的 前状态(S_pre)后状态(S_post),并形成三元组 ⟨S_pre, action, S_post⟩。

示例

S_pre: 显示 "设置" 按钮 action: CLICK "设置" S_post: 显示 "设置界面"

2.2 低阶任务生成(Low-level Instruction)

OS-Genesis 利用 GPT-4o 或其他大模型(如 Qwen2-VL-7B)对 ⟨S_pre, action, S_post⟩ 进行转换,生成低阶任务指令,如:

点击 "设置" 以打开设置界面。

低阶任务的生成规则:

  1. 任务必须描述 GUI 状态的变化(如 "展开菜单")。

  2. 任务必须是可执行的 原子操作(不能省略关键步骤)。

  3. 任务描述需基于用户视角(如 "选择'WiFi 设置'" 而非 "进入 SettingsActivity")。

2.3 高阶任务生成(High-level Instruction)

在获得多个低阶任务后,OS-Genesis 进一步 合成高阶任务,如:

在设置界面中,启用 WiFi 并连接到 "Home-WiFi"。

示例

低阶任务:

1. 点击 "设置" 按钮。

2. 进入 "WiFi 设置" 。

3. 选择 "Home-WiFi" 并输入密码。

合成为:

高阶任务:

"在设置界面连接到 WiFi 网络"。

3. 轨迹构建与奖励模型(TRM)

生成的高阶任务用于 GUI 代理训练,但并非所有轨迹都适合训练,因此 OS-Genesis 设计了 轨迹奖励模型(TRM) 进行筛选。

3.1 轨迹奖励计算

TRM 主要基于两大指标:

  1. 任务完成度(Completion):轨迹是否完整地执行了所有步骤?

  2. 逻辑一致性(Coherence):轨迹的步骤是否符合 GUI 交互逻辑?

评分示例:

轨迹 Completion (0-1) Coherence (0-1) 总分

"打开 WiFi 设置并连接" 0.95 0.90 0.93

"点击 WiFi 但未输入密码" 0.60 0.85 0.72

"随意点击界面" 0.10 0.30 0.20

只有高评分轨迹会被用于训练 GUI 代理,以确保数据质量。

4. 实验与评估

4.1 任务成功率

OS-Genesis 在 AndroidWorld(Mobile)和 WebArena(Web)上进行评估:

  • AndroidWorld :任务成功率从 9.82% 提高至 17.41%(比基线方法翻倍)。

  • WebArena :任务成功率从 7.05% 提高至 10.79%

4.2 泛化能力

OS-Genesis 训练的 GUI 代理在 未见过的应用 中仍然能高效执行任务,证明其泛化能力优于传统方法。

未来展望

OS-Genesis 作为 GUI 代理轨迹数据生成的新方法,在未来可以:

  1. 扩展到更复杂的 GUI 交互环境(如跨平台 GUI 操作)。

  2. 优化 TRM 奖励模型,提升轨迹数据筛选的智能性。

  3. 结合 强化学习,提升 GUI 代理的自适应任务执行能力。

总结

OS-Genesis 提供了一种 高效、无监督、泛化能力强 的 GUI 代理训练方案。通过 逆向任务合成(RTS)轨迹奖励模型(TRM) ,OS-Genesis 解决了 GUI 代理 训练数据 稀缺的问题,并在多个实验环境中优于现有方法,为构建更智能的自动化 GUI 代理提供了重要技术支撑。

原文链接:[2412.19723] OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

相关推荐
Godspeed Zhao1 小时前
自动驾驶中的传感器技术13——Camera(4)
人工智能·机器学习·自动驾驶·camera·摄像头
Godspeed Zhao1 小时前
自动驾驶中的传感器技术6——概述(6)-GNSS
人工智能·机器学习·自动驾驶·gnss·导航定位
caijingshiye2 小时前
BitMart 启动中文品牌“币市”:引领加密资产本地化发展新篇章
人工智能·区块链
视觉语言导航2 小时前
中科院自动化所机器人视觉中的多模态融合与视觉语言模型综述
人工智能·深度学习·机器人·具身智能
SickeyLee4 小时前
产品经理的成长路径与目标总结
大数据·人工智能
叫我:松哥4 小时前
python案例:基于python 神经网络cnn和LDA主题分析的旅游景点满意度分析
人工智能·python·神经网络·数据挖掘·数据分析·cnn·课程设计
2202_756749695 小时前
01 基于sklearn的机械学习-机械学习的分类、sklearn的安装、sklearn数据集及数据集的划分、特征工程(特征提取与无量纲化、特征降维)
人工智能·python·机器学习·分类·sklearn
SoFlu软件机器人5 小时前
飞算科技:以原创之力,开启Java开发新纪元与行业数智变革
人工智能·科技
Nukepayload25 小时前
演练:使用VB开发多智能体协作的荣格八维分析器
ai·avalonia·vb·智能体·工具调用·实时反馈·智能体协同
沫儿笙5 小时前
OTC焊接机器人节能技巧
大数据·人工智能·机器人