论文阅读:三星-TinyClick

《Single-Turn Agent for Empowering GUI Automation》

赋能GUI自动化的单轮代理

摘要

我们介绍了一个用于图形用户界面(GUI)交互任务的单轮代理,使用了视觉语言模型Florence-2-Base。该代理的主要任务是识别与用户指令相对应的UI元素的屏幕坐标。

它在Screenspot和OmniAct上表现出强大的性能,同时保持了0.27B参数的紧凑规模和最低的延迟。

相关的改进来自于多任务训练和基于MLLM的数据增强。手动注释的语料库很少,但我们表明,MLLM增强可能产生更好的结果。

在Screenspot和OmniAct平台上,我们的模型超过了专门针对GUI的模型(如SeeClick)和大模型(如GPT-4V)。

模型:hugging-face.co/Samsung/TinyClick.

下游任务的示例命令。TinyClick 接收屏幕截图和用户指令,然后预测 UI 元素的边界框和动作。

训练情况

模型开源: hugging-face.co/Samsung/TinyClick

Florence2:一个定位和检测模型、通过同时使用带注释的图像和自然语言解释,允许适应跨领域。

训练方式

多任务训练

任务类别和目的

我们使用了公开可用的语料库来训练单轮对话智能体,这些语料库主要包含命令和位置(边界框)。

为了准备训练数据,我们使用了现有的MLLM注解或软件元数据,并且也使用我们自己的MLLM管道对数据进行了重新注解。

元素的描述、期望、位置和用途主要基于MLLM注解,而对象检测则使用了Android XML UI元数据。

实验验证了我们的方法的有效性,用更小、更快的模型超越了当前的基线。

任务名称

1.Element captioning

根据屏幕上的位置生成UI元素的描述、目的或操作预期。

2.Element location

根据视觉描述定位UI元素

3.Object detection

检测所有可点击的UI元素

4.Agent action

根据用户指令(command)定位要点击的UI元素或要点击的位置。

5.QA

根据屏幕内容QA

训练数据集

1.WaveUI

2.AMEX

3.Mind2Web

4.GUI Odyssey(not in train)

5.GUI Course

6.AndroidControl

7.ScreenQA

8.WebUI(not use)

9.OmniAct(validation set)

MLLM注解模型标注的方式

InternVL2-26B 标注数据 GUI Course的例子:

你的任务是生成一个预期 expectation ------与红色方框中的UI元素交互后会发生什么。

也就是说

输入是 image、prompt、 包含command和action的input json

输出是 output json


训练任务示例

同一个UI元素 可以 有多个不同的任务,类似 grounding和widget caption的意思

相关推荐
imbackneverdie1 天前
6个常用国自然课题项目查询网站,码住以备不时之需
论文阅读·人工智能·aigc·科研·国自然·ai工具·国家自然科学基金
蓝田生玉1231 天前
qwen2.5论文阅读笔记
论文阅读·笔记
SUNNY_SHUN2 天前
ICLR 2026 | Judo: 7B小模型工业缺陷问答超越GPT-4o,用对比学习+强化学习注入领域知识
论文阅读·人工智能·学习·视觉检测·github
sin°θ_陈2 天前
前馈式3D Gaussian Splatting 研究地图(总览篇):解构七大路线,梳理方法谱系,看懂关键分歧与未来趋势
论文阅读·深度学习·算法·3d·aigc·空间计算·3dgs
智算菩萨2 天前
【实战讲解】ChatGPT 5.4深度文献检索完全指南:提示词工程与学术实战策略
论文阅读·人工智能·gpt·搜索引擎·chatgpt·提示词·论文笔记
檐下翻书1733 天前
音乐产业版权管理与运营流程图表制作方法
论文阅读·信息可视化·毕业设计·流程图·论文笔记
森诺Alyson3 天前
前沿技术借鉴研讨-2026.3.26(解决虚假特征x2/混合专家对比学习框架)
论文阅读·人工智能·经验分享·深度学习·学习·论文笔记
森诺Alyson3 天前
前沿技术借鉴研讨-2026.3.19(睡眠分期/Agents模拟临床会诊/多模态抑郁症检测)
论文阅读·经验分享·深度学习·论文笔记·论文讨论
imbackneverdie4 天前
如何从海量文献中跨界汲取创新灵感?
论文阅读·人工智能·ai·自然语言处理·aigc·ai写作·ai工具
云霄星乖乖的果冻5 天前
【文献阅读:RobustRAG】Certifiably Robust RAG against Retrieval Corruption
论文阅读