UI-TARS: 基于视觉语言模型的多模式代理

GitHubhttps://github.com/bytedance/UI-TARS

更多AI开源软件发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI

基于视觉语言模型(Vision-Language Model)的 GUI 代理应用,允许用户通过自然语言控制电脑操作。它结合了视觉识别和自然语言处理技术,能够理解用户的指令并执行相应的操作。

该应用支持跨平台运行,适用于 Windows 和 MacOS 系统。通过实时反馈和状态显示,用户可以直观地看到指令的执行情况,确保操作的精准性和高效性。

主要功能

  • 自然语言控制:通过自然语言指令控制电脑操作,简化用户交互。
  • 视觉识别支持:支持截图和视觉识别功能,能够识别屏幕内容并执行相应操作。
  • 精准控制:提供精确的鼠标和键盘控制,确保操作的准确性。
  • 跨平台支持:支持 Windows 和 MacOS 系统,满足不同用户的需求。
  • 实时反馈:提供实时反馈和状态显示,帮助用户了解指令执行情况。

性能

Online Benchmark Evaluation

Benchmark type Benchmark UI-TARS-1.5 OpenAI CUA Claude 3.7 Previous SOTA
Computer Use OSworld (100 steps) 42.5 36.4 28 38.1 (200 step)
Windows Agent Arena (50 steps) 42.1 - - 29.8
Browser Use WebVoyager 84.8 87 84.1 87
Online-Mind2web 75.8 71 62.9 71
Phone Use Android World 64.2 - - 59.5

Grounding Capability Evaluation

Benchmark UI-TARS-1.5 OpenAI CUA Claude 3.7 Previous SOTA
ScreenSpot-V2 94.2 87.9 87.6 91.6
ScreenSpotPro 61.6 23.4 27.7 43.6

Poki Game

Model 2048 cubinko energy free-the-key Gem-11 hex-frvr Infinity-Loop Maze:Path-of-Light shapes snake-solver wood-blocks-3d yarn-untangle laser-maze-puzzle tiles-master
OpenAI CUA 31.04 0.00 32.80 0.00 46.27 92.25 23.08 35.00 52.18 42.86 2.02 44.56 80.00 78.27
Claude 3.7 43.05 0.00 41.60 0.00 0.00 30.76 2.31 82.00 6.26 42.86 0.00 13.77 28.00 52.18
UI-TARS-1.5 100.00 0.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00

Minecraft

Task Type Task Name VPT DreamerV3 Previous SOTA UI-TARS-1.5 w/o Thought UI-TARS-1.5 w/ Thought
Mine Blocks (oak_log) 0.8 1.0 1.0 1.0 1.0
(obsidian) 0.0 0.0 0.0 0.2 0.3
(white_bed) 0.0 0.0 0.1 0.4 0.6
200 Tasks Avg. 0.06 0.03 0.32 0.35 0.42
Kill Mobs (mooshroom) 0.0 0.0 0.1 0.3 0.4
(zombie) 0.4 0.1 0.6 0.7 0.9
(chicken) 0.1 0.0 0.4 0.5 0.6
100 Tasks Avg. 0.04 0.03 0.18 0.25 0.31

模型对比

Here we compare performance across different model scales of UI-TARS on the OSworld benchmark.

Benchmark Type Benchmark UI-TARS-72B-DPO UI-TARS-1.5-7B UI-TARS-1.5
Computer Use OSWorld 24.6 27.5 42.5
GUI Grounding ScreenSpotPro 38.1 49.6 61.6

🚀 安装和使用

为了帮助您快速开始使用我们的模型,我们建议您按顺序执行以下步骤。这些步骤将指导您完成部署、预测后处理,以使模型在您的环境中执行作。

✅ 步骤1:部署和推理

👉 部署和推理。 这包括使用 huggingface 终端节点部署模型和运行第一个预测的说明。

✅ 第 2 步:后处理

👉 预测后处理。 这包括将模型预测解析为可执行的 pyautogui 代码。 为了帮助您更好地了解坐标处理,我们还提供了坐标处理可视化指南

提示使用指南

为了适应不同的设备环境和任务复杂性,codes/prompts.py 中的以下三个提示模板。旨在指导 GUI 代理生成适当的作。选择最适合您的使用案例的模板:

🖥️COMPUTER_USE​

建议用于:桌面环境(如 Windows、Linux 或 macOS)上的 GUI 任务。

特征:

  • 支持常见的桌面作:鼠标单击(单击、双击、右键单击)、拖动作、键盘快捷键、文本输入、滚动等。
  • 非常适合浏览器导航、办公软件交互、文件管理和其他基于桌面的任务。
📱MOBILE_USE​

建议用于:移动设备或 Android 仿真器上的 GUI 任务。

特征:

  • 包括特定于移动设备的作:、、、 .long_pressopen_apppress_homepress_back
  • 适用于启动应用程序、滚动视图、填充输入字段以及在移动应用程序中导航。
📌GROUNDING​

推荐用于:仅专注于作输出的轻量级任务,或用于模型训练和评估。

特征:

  • 仅输出 ,无需任何推理 ()。ActionThought
  • 用于评估接地能力。

实战演习

步骤 1:初始化:UI-TARS 首先使用 PyAutoGUI 初始化交互环境以与 GUI 元素交互。

步骤 2:观察和思考过程

  • 观察:UI-TARS 识别桌面上的 Word 图标。
  • 思考:"Word 图标存在;我需要双击它才能打开 Word 程序。"
  • 操作:在 Word 图标上执行左键双击操作。

步骤 3:等待程序启动

  • 观察:UI-TARS 检测到 Word 程序正在加载。
  • 想法:"我应该等到 Word 完全启动以避免交互错误。"
  • 操作:执行等待操作以确保环境已准备好进行下一步。

步骤 4:输入文本并保存

  • 观察:UI-TARS 观察到 Word 文档界面已准备好进行交互。
  • 想法:"现在我可以添加文本'hello'并使用 Ctrl+S 保存文档。"
  • 操作:执行输入(type("hello"))并保存文件(Ctrl+S)。
相关推荐
AI技术增长3 分钟前
Pytorch图像去噪实战(八):Noise2Void盲点网络图像去噪实战,只有单张带噪图也能训练
人工智能·pytorch·python
梦想很大很大8 分钟前
让 AI 成为“报表配置员”:BI 低代码平台的 Schema 实践路径
前端·人工智能·低代码
隔壁大炮14 分钟前
Day07-RNN层(循环网络层)
人工智能·pytorch·python·rnn·深度学习·神经网络·计算机视觉
小饕20 分钟前
从 Word2Vec 到多模态:词嵌入技术的演进全景
人工智能·算法·机器学习
上海云盾第一敬业销售20 分钟前
生成式AI催生深度伪造攻击,WAF如何识别“假流量“?
人工智能
ykjhr_3d21 分钟前
数字工具AI智能学伴,助力教育数字化转型
大数据·人工智能·ai·ai人工智能·华锐视点·华锐云空间
LIUAWEIO23 分钟前
鸽鸽工具网:免费在线工具大全,打开网页即用
人工智能·安全·ai·json
动恰客流管家27 分钟前
动恰3DV3丨客流统计系统:旺季人手不够淡季闲人太多?客流统计帮你科学优化人力成本
大数据·运维·人工智能·3d
吻等离子31 分钟前
机器学习基本概念篇(含思维导图)
人工智能·机器学习
乐维_lwops31 分钟前
智变2026:中国IT运维管理软件行业全景洞察——从AI重塑到信创深水区
运维·人工智能