UI-TARS Desktop

陈天伟教授2026-05-14 12:13

想象一下：你对着电脑说一句话，然后 AI 自己打开 App、看屏幕、移动鼠标、点按钮、输文字------帮你把事情干了。这不是科幻。这是字节跳动开源的 UI-TARS Desktop。31.7k Star。

装起来有多简单？macOS 上一条命令： brew install --cask ui-tars 然后去火山引擎或者 Hugging Face 搞个 API Key，填进设置，就完了。

我试了一个任务："帮我在 VS Code 设置里把自动保存打开，延迟 500 毫秒。"它自己打开 VS Code → 截图分析界面 → 找到设置按钮 → 搜索 autosave → 调整延迟 → 确认。全程 30 秒。

核心技术是 UI-TARS-1.5，一个专门为 GUI 交互训练的视觉语言模型。它不是通用大模型------GPT 和 Claude 也能看图片，但定位界面元素的精度远不如它。

因为它是专门为"看懂屏幕、定位按钮、规划操作"训练的。底层架构分三层： - VLM（看）：截图 → 识别界面元素 → 输出操作指令 - Planner（想）：规划操作序列 → 预估结果 → 纠错 - Operator（做）：执行鼠标/键盘操作 → 截图验证

重点是这三层都可以替换。你可以用自己的模型、自己的操作逻辑、自己的验证策略。

字节的策略非常清晰：开源 7B 模型吸引开发者 → 桌面应用降低使用门槛 → 火山引擎 API 赚钱。典型的"先占地、再铺路"。

更好的消息是：UI-TARS-1.5-7B 可以本地部署，数据不出你的电脑。 GUI Agent 的时代，比所有人预想的来得都快。