UI-TARS: 基于视觉语言模型的多模式代理

GitHubhttps://github.com/bytedance/UI-TARS

更多AI开源软件发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI

基于视觉语言模型(Vision-Language Model)的 GUI 代理应用,允许用户通过自然语言控制电脑操作。它结合了视觉识别和自然语言处理技术,能够理解用户的指令并执行相应的操作。

该应用支持跨平台运行,适用于 Windows 和 MacOS 系统。通过实时反馈和状态显示,用户可以直观地看到指令的执行情况,确保操作的精准性和高效性。

主要功能

  • 自然语言控制:通过自然语言指令控制电脑操作,简化用户交互。
  • 视觉识别支持:支持截图和视觉识别功能,能够识别屏幕内容并执行相应操作。
  • 精准控制:提供精确的鼠标和键盘控制,确保操作的准确性。
  • 跨平台支持:支持 Windows 和 MacOS 系统,满足不同用户的需求。
  • 实时反馈:提供实时反馈和状态显示,帮助用户了解指令执行情况。

性能

Online Benchmark Evaluation

Benchmark type Benchmark UI-TARS-1.5 OpenAI CUA Claude 3.7 Previous SOTA
Computer Use OSworld (100 steps) 42.5 36.4 28 38.1 (200 step)
Windows Agent Arena (50 steps) 42.1 - - 29.8
Browser Use WebVoyager 84.8 87 84.1 87
Online-Mind2web 75.8 71 62.9 71
Phone Use Android World 64.2 - - 59.5

Grounding Capability Evaluation

Benchmark UI-TARS-1.5 OpenAI CUA Claude 3.7 Previous SOTA
ScreenSpot-V2 94.2 87.9 87.6 91.6
ScreenSpotPro 61.6 23.4 27.7 43.6

Poki Game

Model 2048 cubinko energy free-the-key Gem-11 hex-frvr Infinity-Loop Maze:Path-of-Light shapes snake-solver wood-blocks-3d yarn-untangle laser-maze-puzzle tiles-master
OpenAI CUA 31.04 0.00 32.80 0.00 46.27 92.25 23.08 35.00 52.18 42.86 2.02 44.56 80.00 78.27
Claude 3.7 43.05 0.00 41.60 0.00 0.00 30.76 2.31 82.00 6.26 42.86 0.00 13.77 28.00 52.18
UI-TARS-1.5 100.00 0.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00

Minecraft

Task Type Task Name VPT DreamerV3 Previous SOTA UI-TARS-1.5 w/o Thought UI-TARS-1.5 w/ Thought
Mine Blocks (oak_log) 0.8 1.0 1.0 1.0 1.0
(obsidian) 0.0 0.0 0.0 0.2 0.3
(white_bed) 0.0 0.0 0.1 0.4 0.6
200 Tasks Avg. 0.06 0.03 0.32 0.35 0.42
Kill Mobs (mooshroom) 0.0 0.0 0.1 0.3 0.4
(zombie) 0.4 0.1 0.6 0.7 0.9
(chicken) 0.1 0.0 0.4 0.5 0.6
100 Tasks Avg. 0.04 0.03 0.18 0.25 0.31

模型对比

Here we compare performance across different model scales of UI-TARS on the OSworld benchmark.

Benchmark Type Benchmark UI-TARS-72B-DPO UI-TARS-1.5-7B UI-TARS-1.5
Computer Use OSWorld 24.6 27.5 42.5
GUI Grounding ScreenSpotPro 38.1 49.6 61.6

🚀 安装和使用

为了帮助您快速开始使用我们的模型,我们建议您按顺序执行以下步骤。这些步骤将指导您完成部署、预测后处理,以使模型在您的环境中执行作。

✅ 步骤1:部署和推理

👉 部署和推理。 这包括使用 huggingface 终端节点部署模型和运行第一个预测的说明。

✅ 第 2 步:后处理

👉 预测后处理。 这包括将模型预测解析为可执行的 pyautogui 代码。 为了帮助您更好地了解坐标处理,我们还提供了坐标处理可视化指南

提示使用指南

为了适应不同的设备环境和任务复杂性,codes/prompts.py 中的以下三个提示模板。旨在指导 GUI 代理生成适当的作。选择最适合您的使用案例的模板:

🖥️COMPUTER_USE​

建议用于:桌面环境(如 Windows、Linux 或 macOS)上的 GUI 任务。

特征:

  • 支持常见的桌面作:鼠标单击(单击、双击、右键单击)、拖动作、键盘快捷键、文本输入、滚动等。
  • 非常适合浏览器导航、办公软件交互、文件管理和其他基于桌面的任务。
📱MOBILE_USE​

建议用于:移动设备或 Android 仿真器上的 GUI 任务。

特征:

  • 包括特定于移动设备的作:、、、 .long_pressopen_apppress_homepress_back
  • 适用于启动应用程序、滚动视图、填充输入字段以及在移动应用程序中导航。
📌GROUNDING​

推荐用于:仅专注于作输出的轻量级任务,或用于模型训练和评估。

特征:

  • 仅输出 ,无需任何推理 ()。ActionThought
  • 用于评估接地能力。

实战演习

步骤 1:初始化:UI-TARS 首先使用 PyAutoGUI 初始化交互环境以与 GUI 元素交互。

步骤 2:观察和思考过程

  • 观察:UI-TARS 识别桌面上的 Word 图标。
  • 思考:"Word 图标存在;我需要双击它才能打开 Word 程序。"
  • 操作:在 Word 图标上执行左键双击操作。

步骤 3:等待程序启动

  • 观察:UI-TARS 检测到 Word 程序正在加载。
  • 想法:"我应该等到 Word 完全启动以避免交互错误。"
  • 操作:执行等待操作以确保环境已准备好进行下一步。

步骤 4:输入文本并保存

  • 观察:UI-TARS 观察到 Word 文档界面已准备好进行交互。
  • 想法:"现在我可以添加文本'hello'并使用 Ctrl+S 保存文档。"
  • 操作:执行输入(type("hello"))并保存文件(Ctrl+S)。
相关推荐
zm-v-159304339862 分钟前
ArcGIS 水文分析升级:基于深度学习的流域洪水演进过程模拟
人工智能·深度学习·arcgis
拓端研究室1 小时前
视频讲解|核密度估计朴素贝叶斯:业务数据分类—从理论到实践
人工智能·分类·数据挖掘
灵智工坊LingzhiAI1 小时前
人体坐姿检测系统项目教程(YOLO11+PyTorch+可视化)
人工智能·pytorch·python
昨日之日20061 小时前
Video Background Remover V3版 - AI视频一键抠像/视频换背景 支持50系显卡 一键整合包下载
人工智能·音视频
SHIPKING3932 小时前
【机器学习&深度学习】什么是下游任务模型?
人工智能·深度学习·机器学习
子燕若水6 小时前
Unreal Engine 5中的AI知识
人工智能
极限实验室7 小时前
Coco AI 实战(一):Coco Server Linux 平台部署
人工智能
杨过过儿7 小时前
【学习笔记】4.1 什么是 LLM
人工智能
巴伦是只猫7 小时前
【机器学习笔记Ⅰ】13 正则化代价函数
人工智能·笔记·机器学习
大千AI助手7 小时前
DTW模版匹配:弹性对齐的时间序列相似度度量算法
人工智能·算法·机器学习·数据挖掘·模版匹配·dtw模版匹配