【AI论文速递】RAG-GUI:轻量VLM用SFT/RSF提升GUI性能

文章目录

    • [✨ 亮点总结:](#✨ 亮点总结:)
    • [📝 摘要翻译:](#📝 摘要翻译:)
    • [📌 研究背景:](#📌 研究背景:)
    • [💡 研究动机:](#💡 研究动机:)
    • [🚀 方法简介:](#🚀 方法简介:)
    • [📊 实验设计与结果:](#📊 实验设计与结果:)

🔖 论文标题:Retrieval-augmented GUI Agents with Generative Guidelines

📅 发布时间:2025年9月29日

🌐 Arxiv ID:arXiv:2509.24183v1

🔑 关键词:GUI Agents(图形用户界面智能体), Retrieval-augmented Generation(检索增强生成), Vision-Language Models(视觉语言模型)

✨ 亮点总结:

  1. 提出轻量级VLM模型RAG-GUI,可作为通用插件增强任意基于VLM的GUI智能体,实现"即插即用";
  2. 创新采用两阶段训练(SFT监督微调+RSF自引导拒绝采样微调),无需大量重训练即可提升性能;
  3. 首次在推理时直接利用网页教程作为非参数知识库,解决GUI任务中长尾知识稀缺、泛化性差的问题;
  4. 在3个任务、2种模型规模上均优于基线,在线AndroidWorld基准中7B/72B模型性能分别提升13.3%、10.7%,落地潜力强。

📝 摘要翻译:

由视觉语言模型(VLM)驱动的图形用户界面(GUI)智能体,在自动化复杂数字任务方面展现出良好前景。然而,由于训练数据稀缺以及任务本身固有的复杂性(常需覆盖罕见、未见过场景的长尾知识),其在实际应用中的效果往往受限。本文提出RAG-GUI------一种轻量级VLM,可在推理时利用网页教程。RAG-GUI首先通过监督微调(SFT)实现"预热",再通过自引导拒绝采样微调(RSF)进一步优化。该模型具备模型无关性,可作为通用插件增强任意基于VLM的智能体。在3个不同任务上的评估显示,它持续优于基线智能体,且在两种模型规模下,比其他推理基线的性能提升2.6%至13.3%,证明其在实际场景中具有出色的泛化能力和"即插即用"实用性。

📌 研究背景:

GUI智能体可自动化网页浏览器、电脑、移动应用等多平台的复杂交互,近年来VLM的发展大幅提升了其视觉上下文理解与推理能力。但这类智能体仍面临两大核心瓶颈:一是真实世界GUI任务多为多步骤复杂任务,对知识覆盖要求高;二是高质量训练数据稀缺,难以支撑模型应对罕见场景,导致泛化性不足。

💡 研究动机:

现有研究多通过网页教程合成训练轨迹来优化GUI智能体,但合成数据质量参差不齐,且无法灵活适配新任务。传统检索增强生成(RAG)依赖清洗后的固定长度文本块,难以处理网页教程中的程序性知识(固定分块易丢失步骤逻辑,不处理则输入冗长嘈杂),且教程与任务的相关性无法保证。因此,亟需一种能在推理时高效利用网页教程、适配GUI任务特性的轻量化增强方案。

🚀 方法简介:

  1. 教程数据集构建:从MINT、OmniCorpus、WikiHow筛选260万条高质量GUI教程(经FastText过滤、去重、LLM标注三阶段处理);
  2. 两阶段训练RAG-GUI(作为智能体与教程间的适配器):
    • SFT预热:用GPT-4.1-mini生成(状态、教程、动作)对的高质量指导数据,训练RAG-GUI初步具备相关性判断与指导生成能力;
    • RSF优化:基于"优质指导能帮助智能体选对动作"的假设,筛选能让智能体输出正确动作的指导数据,进一步微调RAG-GUI;
  3. 推理流程:先检索与当前任务相关的教程,RAG-GUI生成带相关性标签的指导,过滤后将相关指导输入智能体,辅助其决策(智能体参数固定,仅优化RAG-GUI)。

📊 实验设计与结果:

  1. 实验设计:
    • 数据集:离线任务(AndroidControl、MultimodalMind2Web)、在线任务(AndroidWorld,模拟真实场景);
    • 基线:无教程推理模型(如GPT-4o、Claude)、传统RAG、教程合成训练模型(如AgentTrek);
    • 评估指标:元素准确率(Ele. Acc.)、操作F1(Op. F1)、步骤成功率(Step SR)、步骤准确率(Step Acc.)。
  2. 关键结果:
    • 离线任务:RAG-GUI比传统RAG提升显著,7B模型在Mind2Web、AndroidControl上分别提升4.4%、6.3%,且优于AgentTrek等合成训练模型;
    • 在线任务:7B/72B模型性能分别提升13.3%、10.7%,大幅缩小与训练式方法的差距;
    • 消融实验:RSF微调可使性能进一步提升(如7B模型AndroidWorld SR从32.8%升至35.3%),证明两阶段训练有效性。

🔍 本帖由AI整理生成,若有错误欢迎指正!

👉🏻 如果喜欢,请关注我,每天带你速览AI领域前沿论文! ❤️

相关推荐
凯子坚持 c2 小时前
CANN 生态新星:`minddata-dataset-engine` 如何加速 AI 数据 pipeline
人工智能
Fairy要carry2 小时前
面试-GRPO强化学习
开发语言·人工智能
xiaobaibai1532 小时前
营销自动化终极形态:AdAgent 自主闭环工作流全解析
大数据·人工智能·自动化
自不量力的A同学2 小时前
Solon AI v3.9 正式发布:全能 Skill 爆发
java·网络·人工智能
一枕眠秋雨>o<2 小时前
从抽象到具象:TBE如何重构AI算子的编译哲学
人工智能
xiaobaibai1532 小时前
决策引擎深度拆解:AdAgent 用 CoT+RL 实现营销自主化决策
大数据·人工智能
island13142 小时前
CANN ops-nn 算子库深度解析:神经网络核心计算的硬件映射、Tiling 策略与算子融合机制
人工智能·深度学习·神经网络
冬奇Lab2 小时前
一天一个开源项目(第14篇):CC Workflow Studio - 可视化AI工作流编辑器,让AI自动化更简单
人工智能·开源·编辑器
是小蟹呀^2 小时前
从稀疏到自适应:人脸识别中稀疏表示的核心演进
人工智能·分类
云边有个稻草人2 小时前
CANN ops-nn:筑牢AIGC的神经网络算子算力底座
人工智能·神经网络·aigc·cann