字节跳动发布UI-TARS，超越GPT-4o和Claude，能接管电脑完成复杂任务

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

字节跳动的全新人工智能代理UI-TARS横空出世，其能力不仅可以接管用户的电脑，还能自主完成复杂的工作流，大幅超越现有的竞争对手。

UI-TARS与Anthropic的"Computer Use"类似，能够理解图形用户界面（GUI）、进行逻辑推理并逐步执行操作。

行业领先的性能表现

UI-TARS基于约500亿训练标注数据，提供7B和72B参数版本。无论是在性能、感知能力、任务执行能力还是整体表现上，UI-TARS在10多个GUI基准测试中均表现出色，超越OpenAI的GPT-4o、Anthropic的Claude，以及谷歌的Gemini。

例如，在VisualWebBench测试中，UI-TARS 72B取得了82.8%的高分，领先于GPT-4o（78.5%）和Claude 3.5（78.2%）。在WebSRC测试（衡量网页语义内容理解能力）中，UI-TARS-7B得分93.6%，而在复杂屏幕布局理解的ScreenQA-short测试中，UI-TARS-72B以88.6%的成绩拔得头筹，全面超越Qwen、Claude 3.5和Gemini系列模型。

研究团队表示，这些成果证明了UI-TARS在网页与移动端环境中优异的感知与理解能力。这种能力为复杂任务的精准执行奠定了坚实基础。

操作演示：能看懂界面并自主行动

UI-TARS的操作界面分为两部分：左侧为思考过程，实时记录其每一步推理逻辑；右侧为操作窗口，可自动打开文件、访问网站或运行应用程序。

实例场景：

搜索航班：UI-TARS被指示查找从西雅图（SEA）到纽约（NYC）下个月5日出发、10日返回的往返航班，并按价格升序排序。它会自动导航至航空公司官网，填写相关信息，逐步完成操作，同时详细解释每一步的行动逻辑。
安装VS Code扩展：它会先打开VS Code，等待应用完全加载，再导航至扩展视图，搜索并安装autoDocstring扩展。整个过程中遇到问题时，模型会尝试纠正，比如点击不准时会重新调整并执行操作。

UI-TARS的多步骤操作能力和故障恢复能力展示了其出色的自主学习和适应性。

背后技术解析

UI-TARS通过大规模截图数据集训练，数据包含元素描述、类型、视觉信息、位置框和功能等元数据。模型可以全面描述截图内容，不仅识别界面元素，还能理解它们的空间关系。

状态变化描述：UI-TARS通过截图前后的对比，识别界面变化并判断是否执行了点击或输入等操作。
短期与长期记忆：模型具备实时处理任务的能力，同时保留历史交互记录以优化后续决策。
推理能力：UI-TARS兼具快速直觉式（System 1）和深度反思式（System 2）推理，支持多步骤决策、错误纠正及动态适应。

研究人员还引入了纠错和反思数据，确保模型能够识别错误并动态调整，从而进一步提升任务完成的可靠性与效率。

超越竞争对手的全能表现

与Anthropic的Claude相比，UI-TARS不仅在网页任务中表现优异，还能轻松胜任移动端操作。

Claude在移动任务上的短板反映了其GUI操作能力的局限，而UI-TARS在跨平台领域（如网页和移动端）都展现了卓越的能力。例如，在多步骤操作与移动任务中，UI-TARS在AndroidWorld的116项测试中实现了高分表现，进一步验证了其通用性和实用性。

未来展望

UI-TARS的诞生代表着AI原生代理技术的重大进步。研究人员表示，未来的发展方向在于结合主动学习和持续学习，使代理通过与真实世界的交互自主改进能力。这种前瞻性设计将推动AI在更多实际场景中的落地应用，成为竞争激烈的AI代理市场中的重要玩家。