OS-Genesis:基于逆向任务合成的 GUI 代理轨迹自动化生成

引言

近年来,图形用户界面 GUI )代理(GUI Agents) 在软件自动化、辅助测试和 AI 驱动的任务执行中扮演着越来越重要的角色。然而,当前的 GUI 代理训练仍然面临 高质量数据稀缺 的核心挑战。现有的方法主要依赖:

  • 人工标注数据:人工设计任务,并手动记录交互数据,成本高昂,且扩展性差。

  • 基于预定义任务的 合成数据:预设 GUI 任务,并利用规则或模型生成轨迹数据,但存在数据多样性不足、泛化性差的问题。

核心问题

  1. 如何高效构建高质量的 GUI 代理 训练数据

  2. 如何减少对人工标注和任务预定义的依赖?

  3. 如何提高 GUI 代理在复杂交互任务中的泛化能力?

OS-Genesis 的贡献

OS-Genesis 提出了一种无监督的 GUI 轨迹数据自动合成框架,其核心思想是:

  • 让代理在 GUI 环境中 主动探索,收集交互数据;

  • 通过 逆向任务合成( RTS 推导任务轨迹,而非依赖人工任务定义;

  • 通过 轨迹奖励模型(TRM) 评估并优化数据质量;

  • 实验表明,OS-Genesis 大幅提升了 GUI 代理的任务完成率,并在 Mobile 和 Web 场景中优于现有方法。

1. OS-Genesis 的系统架构

OS-Genesis 由三个核心模块组成:

1. 探索与数据采集(Exploration & Data Collection)

  • 代理在 GUI 界面中执行交互操作(点击、滚动、输入等)。

  • 记录 GUI 状态变化(pre-stateactionpost-state)。

  • 形成 GUI 交互三元组:⟨S_pre, action, S_post⟩。

2. 逆向任务合成(Reverse Task Synthesis, RTS)

  • 低阶任务(Low-level Instruction)生成:基于 GUI 状态变化生成具体的操作描述,如 "点击设置按钮"。

  • 高阶任务(High-level Instruction)推导:整合多个低阶任务,构建完整的 GUI 任务目标,如 "修改应用设置"。

3. 轨迹构建与奖励模型(Trajectory Construction & Reward Model)

  • 代理执行生成的高阶任务,形成完整轨迹。

  • 轨迹奖励模型(TRM)计算任务完成度(Completion)和逻辑一致性(Coherence)。

  • 低质量轨迹被筛除,仅保留高质量轨迹用于训练。

2. 逆向任务合成(RTS):从交互到任务

2.1 动作记录与 GUI 状态捕捉

在无任务预定义的情况下,OS-Genesis 采用 主动交互 方式,在 GUI 界面中执行以下基本动作:

  • 点击(CLICK)

  • 输入文本(TYPE)

  • 滚动(SCROLL)

  • 切换窗口( SWITCH WINDOW)

每次操作都记录 GUI 界面的 前状态(S_pre)后状态(S_post),并形成三元组 ⟨S_pre, action, S_post⟩。

示例

S_pre: 显示 "设置" 按钮 action: CLICK "设置" S_post: 显示 "设置界面"

2.2 低阶任务生成(Low-level Instruction)

OS-Genesis 利用 GPT-4o 或其他大模型(如 Qwen2-VL-7B)对 ⟨S_pre, action, S_post⟩ 进行转换,生成低阶任务指令,如:

点击 "设置" 以打开设置界面。

低阶任务的生成规则:

  1. 任务必须描述 GUI 状态的变化(如 "展开菜单")。

  2. 任务必须是可执行的 原子操作(不能省略关键步骤)。

  3. 任务描述需基于用户视角(如 "选择'WiFi 设置'" 而非 "进入 SettingsActivity")。

2.3 高阶任务生成(High-level Instruction)

在获得多个低阶任务后,OS-Genesis 进一步 合成高阶任务,如:

在设置界面中,启用 WiFi 并连接到 "Home-WiFi"。

示例

低阶任务:

1. 点击 "设置" 按钮。

2. 进入 "WiFi 设置" 。

3. 选择 "Home-WiFi" 并输入密码。

合成为:

高阶任务:

"在设置界面连接到 WiFi 网络"。

3. 轨迹构建与奖励模型(TRM)

生成的高阶任务用于 GUI 代理训练,但并非所有轨迹都适合训练,因此 OS-Genesis 设计了 轨迹奖励模型(TRM) 进行筛选。

3.1 轨迹奖励计算

TRM 主要基于两大指标:

  1. 任务完成度(Completion):轨迹是否完整地执行了所有步骤?

  2. 逻辑一致性(Coherence):轨迹的步骤是否符合 GUI 交互逻辑?

评分示例:

轨迹 Completion (0-1) Coherence (0-1) 总分

"打开 WiFi 设置并连接" 0.95 0.90 0.93

"点击 WiFi 但未输入密码" 0.60 0.85 0.72

"随意点击界面" 0.10 0.30 0.20

只有高评分轨迹会被用于训练 GUI 代理,以确保数据质量。

4. 实验与评估

4.1 任务成功率

OS-Genesis 在 AndroidWorld(Mobile)和 WebArena(Web)上进行评估:

  • AndroidWorld :任务成功率从 9.82% 提高至 17.41%(比基线方法翻倍)。

  • WebArena :任务成功率从 7.05% 提高至 10.79%

4.2 泛化能力

OS-Genesis 训练的 GUI 代理在 未见过的应用 中仍然能高效执行任务,证明其泛化能力优于传统方法。

未来展望

OS-Genesis 作为 GUI 代理轨迹数据生成的新方法,在未来可以:

  1. 扩展到更复杂的 GUI 交互环境(如跨平台 GUI 操作)。

  2. 优化 TRM 奖励模型,提升轨迹数据筛选的智能性。

  3. 结合 强化学习,提升 GUI 代理的自适应任务执行能力。

总结

OS-Genesis 提供了一种 高效、无监督、泛化能力强 的 GUI 代理训练方案。通过 逆向任务合成(RTS)轨迹奖励模型(TRM) ,OS-Genesis 解决了 GUI 代理 训练数据 稀缺的问题,并在多个实验环境中优于现有方法,为构建更智能的自动化 GUI 代理提供了重要技术支撑。

原文链接:[2412.19723] OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

相关推荐
CareyWYR5 分钟前
每周AI论文速递(250421-250425)
人工智能
追逐☞24 分钟前
机器学习(10)——神经网络
人工智能·神经网络·机器学习
winner888131 分钟前
对抗学习:机器学习里的 “零和博弈”,如何实现 “双赢”?
人工智能·机器学习·gan·对抗学习
Elastic 中国社区官方博客40 分钟前
使用 LangGraph 和 Elasticsearch 构建强大的 RAG 工作流
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
娃娃略40 分钟前
【AI模型学习】双流网络——更强大的网络设计
网络·人工智能·pytorch·python·神经网络·学习
福尔摩东1 小时前
从零到精通:2025年最全大模型学习资源
人工智能·github
青橘MATLAB学习1 小时前
深度学习中的预训练与微调:从基础概念到实战应用全解析
人工智能·深度学习·微调·迁移学习·预训练·梯度消失·模型复用
高桐@BILL1 小时前
1.4 大模型应用产品与技术架构
人工智能·架构·agent
Ann1 小时前
Prompt Engineering:如何让大模型按要求“工作”
人工智能·llm
迪小莫学AI1 小时前
多模态深度学习: 从基础到实践
人工智能·深度学习