UI-TARS: 基于视觉语言模型的多模式代理

GitHub ：https://github.com/bytedance/UI-TARS

更多AI开源软件 ：发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI

基于视觉语言模型（Vision-Language Model）的 GUI 代理应用，允许用户通过自然语言控制电脑操作。它结合了视觉识别和自然语言处理技术，能够理解用户的指令并执行相应的操作。

该应用支持跨平台运行，适用于 Windows 和 MacOS 系统。通过实时反馈和状态显示，用户可以直观地看到指令的执行情况，确保操作的精准性和高效性。

主要功能

自然语言控制：通过自然语言指令控制电脑操作，简化用户交互。
视觉识别支持：支持截图和视觉识别功能，能够识别屏幕内容并执行相应操作。
精准控制：提供精确的鼠标和键盘控制，确保操作的准确性。
跨平台支持：支持 Windows 和 MacOS 系统，满足不同用户的需求。
实时反馈：提供实时反馈和状态显示，帮助用户了解指令执行情况。

性能

Online Benchmark Evaluation

Benchmark type	Benchmark	UI-TARS-1.5	OpenAI CUA	Claude 3.7	Previous SOTA
Computer Use	OSworld (100 steps)	42.5	36.4	28	38.1 (200 step)
	Windows Agent Arena (50 steps)	42.1	-	-	29.8
Browser Use	WebVoyager	84.8	87	84.1	87
	Online-Mind2web	75.8	71	62.9	71
Phone Use	Android World	64.2	-	-	59.5

Grounding Capability Evaluation

Benchmark	UI-TARS-1.5	OpenAI CUA	Claude 3.7	Previous SOTA
ScreenSpot-V2	94.2	87.9	87.6	91.6
ScreenSpotPro	61.6	23.4	27.7	43.6

Poki Game

Model	2048	energy	free-the-key	Gem-11	hex-frvr	Infinity-Loop	Maze:Path-of-Light	shapes	snake-solver	wood-blocks-3d	yarn-untangle	laser-maze-puzzle	tiles-master
OpenAI CUA	31.04	32.80	0.00	46.27	92.25	23.08	35.00	52.18	42.86	2.02	44.56	80.00	78.27
Claude 3.7	43.05	41.60	0.00	0.00	30.76	2.31	82.00	6.26	42.86	0.00	13.77	28.00	52.18
UI-TARS-1.5	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00	100.00

Minecraft

Task Type	Task Name	VPT	DreamerV3	Previous SOTA	UI-TARS-1.5 w/o Thought	UI-TARS-1.5 w/ Thought
Mine Blocks	(oak_log)	0.8	1.0	1.0	1.0	1.0
	(obsidian)	0.0	0.0	0.0	0.2	0.3
	(white_bed)	0.0	0.0	0.1	0.4	0.6
	200 Tasks Avg.	0.06	0.03	0.32	0.35	0.42
Kill Mobs	(mooshroom)	0.0	0.0	0.1	0.3	0.4
	(zombie)	0.4	0.1	0.6	0.7	0.9
	(chicken)	0.1	0.0	0.4	0.5	0.6
	100 Tasks Avg.	0.04	0.03	0.18	0.25	0.31

模型对比

Here we compare performance across different model scales of UI-TARS on the OSworld benchmark.

Benchmark Type	Benchmark	UI-TARS-72B-DPO	UI-TARS-1.5-7B	UI-TARS-1.5
Computer Use	OSWorld	24.6	27.5	42.5
GUI Grounding	ScreenSpotPro	38.1	49.6	61.6

🚀 安装和使用

为了帮助您快速开始使用我们的模型，我们建议您按顺序执行以下步骤。这些步骤将指导您完成部署、预测后处理，以使模型在您的环境中执行作。

✅ 步骤1：部署和推理

👉 部署和推理。这包括使用 huggingface 终端节点部署模型和运行第一个预测的说明。

✅ 第 2 步：后处理

👉 预测后处理。这包括将模型预测解析为可执行的 pyautogui 代码。为了帮助您更好地了解坐标处理，我们还提供了坐标处理可视化指南。

提示使用指南

为了适应不同的设备环境和任务复杂性，codes/prompts.py 中的以下三个提示模板。旨在指导 GUI 代理生成适当的作。选择最适合您的使用案例的模板：

🖥️COMPUTER_USE

建议用于：桌面环境（如 Windows、Linux 或 macOS）上的 GUI 任务。

特征：

支持常见的桌面作：鼠标单击（单击、双击、右键单击）、拖动作、键盘快捷键、文本输入、滚动等。
非常适合浏览器导航、办公软件交互、文件管理和其他基于桌面的任务。

📱MOBILE_USE

建议用于：移动设备或 Android 仿真器上的 GUI 任务。

特征：

包括特定于移动设备的作：、、、 .long_pressopen_apppress_homepress_back
适用于启动应用程序、滚动视图、填充输入字段以及在移动应用程序中导航。

📌GROUNDING

推荐用于：仅专注于作输出的轻量级任务，或用于模型训练和评估。

特征：

仅输出，无需任何推理（）。ActionThought
用于评估接地能力。

实战演习

步骤 1：初始化：UI-TARS 首先使用 PyAutoGUI 初始化交互环境以与 GUI 元素交互。

步骤 2：观察和思考过程

观察：UI-TARS 识别桌面上的 Word 图标。
思考："Word 图标存在；我需要双击它才能打开 Word 程序。"
操作：在 Word 图标上执行左键双击操作。

步骤 3：等待程序启动

观察：UI-TARS 检测到 Word 程序正在加载。
想法："我应该等到 Word 完全启动以避免交互错误。"
操作：执行等待操作以确保环境已准备好进行下一步。

步骤 4：输入文本并保存

观察：UI-TARS 观察到 Word 文档界面已准备好进行交互。
想法："现在我可以添加文本'hello'并使用 Ctrl+S 保存文档。"
操作：执行输入（type("hello")）并保存文件（Ctrl+S）。