UI-TARS Desktop

想象一下:你对着电脑说一句话,然后 AI 自己打开 App、看屏幕、移动鼠标、点按钮、输文字------帮你把事情干了。 这不是科幻。这是字节跳动开源的 UI-TARS Desktop。31.7k Star。

装起来有多简单?macOS 上一条命令: brew install --cask ui-tars 然后去火山引擎或者 Hugging Face 搞个 API Key,填进设置,就完了。

我试了一个任务:"帮我在 VS Code 设置里把自动保存打开,延迟 500 毫秒。"它自己打开 VS Code → 截图分析界面 → 找到设置按钮 → 搜索 autosave → 调整延迟 → 确认。全程 30 秒。

核心技术是 UI-TARS-1.5,一个专门为 GUI 交互训练的视觉语言模型。它不是通用大模型------GPT 和 Claude 也能看图片,但定位界面元素的精度远不如它。

因为它是专门为"看懂屏幕、定位按钮、规划操作"训练的。 底层架构分三层: - VLM(看):截图 → 识别界面元素 → 输出操作指令 - Planner(想):规划操作序列 → 预估结果 → 纠错 - Operator(做):执行鼠标/键盘操作 → 截图验证

重点是这三层都可以替换。你可以用自己的模型、自己的操作逻辑、自己的验证策略。

字节的策略非常清晰:开源 7B 模型吸引开发者 → 桌面应用降低使用门槛 → 火山引擎 API 赚钱。典型的"先占地、再铺路"。

更好的消息是:UI-TARS-1.5-7B 可以本地部署,数据不出你的电脑。 GUI Agent 的时代,比所有人预想的来得都快。

https://github.com/bytedance/UI-TARS-desktop

相关推荐
冬奇Lab7 小时前
Workflow 系列(01):基础理论——三种执行模型与 Anthropic 5 种模式
人工智能·agent·工作流引擎
冬奇Lab7 小时前
每日一个开源项目(第143篇):page-agent - 纯 JS 的网页 GUI Agent,无需截图、无需插件、无需后端
前端·人工智能·agent
程序员cxuan9 小时前
虽迟但到!GPT-5.6 终于来了!
人工智能·后端·程序员
ZhengEnCi11 小时前
Q03-UI设计进阶技巧-让界面更高级的7个核心原则
人工智能
IT_陈寒11 小时前
React的这个渲染问题连官方文档都没说清楚
前端·人工智能·后端
不加辣椒13 小时前
第12章 工具调用与 Agent 提示工程
人工智能
用户16931761726613 小时前
前端给AI消息做日期分组与时间线
人工智能
i晟13 小时前
Claude Code Harness 深度拆解:从你敲回车到模型回复,中间发生了什么
人工智能
用户2527362781414 小时前
【踩坑复盘】我在本地跑 RAG 知识库时踩了 5 个大坑,吐血整理避坑指南
人工智能
大模型真好玩14 小时前
LangChain DeepAgents 速通指南(九)—— 生产级智能体框架 DeepAgents Code 源码导读
人工智能·langchain·agent