AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

在 CNCC2024 大会上，智谱推出了 GLM 第一个产品化的智能体（Agent）------AutoGLM，只需接收简单的文字/语音指令，它就可以模拟人类操作手机，进而帮你：

在微信上「给老板的朋友圈点赞并写评论」，
在淘宝上「购买某一款历史订单产品」，
在携程上预订酒店，
在 12306 上购买火车票，
在美团上点个外卖，
...

另外，AutoGLM 也可以对网页进行操作，比如"检索知识图谱最新的学术期刊发表内容且只看北大核心"。

AutoGLM 的出现，让 AI「phone use」与网页操作不再是设想。

日前，智谱和清华团队在预印本网站 arXiv 上发布了 AutoGLM 的技术报告。

论文链接：

https://arxiv.org/abs/2411.00820

项目地址：

https://xiao9905.github.io/AutoGLM/

技术报告主要内容如下：

AutoGLM 是 ChatGLM 系列中的一个新产品，旨在作为基础智能体，通过图形用户界面（GUI）自主控制数字设备，实现更进一步的 AI「phone use」。
研究主要贡献包括：设计了一个「基础智能体解耦合中间界面」，有效解耦规划和执行行为；开发了一种「自进化在线课程强化学习框架」，实现了鲁棒的错误恢复和性能提升。
在安卓设备控制方面，AutoGLM 在 AndroidLab（VAB-Mobile）上的成功率为 36.2%，在流行 APP 的常见任务上的成功率为 89.7%。揭示了基础智能体技术在未来人机交互中的广泛潜力。
在网页浏览方面，AutoGLM 在 VAB-WebArena-Lite 上取得了 55.2% 的成功率（第二次尝试后成功率提高到 59.1%），在 OpenTable 评估任务中取得了 96.2% 的成功率。

AutoGLM 是如何炼成的？

在开发过程中，AutoGLM 团队采用了多项先进技术，以克服基础模型在真实环境中执行任务的挑战。

预训练 。通常，互联网上的文本语料库中缺乏智能体相关的数据，使得 LLM 难以有效地充当智能体。此外，现有的多模态大模型（LMM）预训练主要集中于"视觉指令微调"，未能充分从序列多模态数据中学习。因此，合理利用在线数据中的弱监督决策信号来进行预训练能够提供帮助。此外，在多模态感知方面，高分辨率视觉输入非常重要，尤其是在使用 SoM 提示等定位策略时。
多模态大模型 。LMM 对于理解和操控 GUI 至关重要。传统的机器人过程自动化（RPA）使用光学字符识别（OCR）工具来匹配手工编写的自动化程序中的关键元素，但难以扩展和泛化。而 LMM 则能够利用常识和 GUI 环境，进行模糊匹配和长程规划。当然，LMM 仍然需要大量训练，以获得智能体任务所需的强大规划和推理能力。
- 行为克隆（监督微调）。行为克隆是从头开始使用高质量专家轨迹数据训练智能体的关键策略，被验证了对基于 LLM 和 LMM 的智能体训练有效。当然，值得注意的是，该策略存在两个主要缺陷：采集专家轨迹成本高昂且耗时、当专家轨迹为理想解时智能体出错后难以有效纠正。
课程学习。智能体任务通常难度差异显著，因此通过课程计划逐步增加训练难度非常关键，这一策略对构建具有复杂目标实现能力的基础智能体非常有用。例如，AutoWebGLM 采用了多阶段课程，在此过程中智能体模型依次接受单步任务、简单多步任务和复杂的长程任务的训练。
奖励建模（RM）。为了让基础智能体能够通过在线强化学习（RL）获得监督，适当的奖励建模至关重要。此前许多 RL 智能体使用带有精确规则的奖励函数进行有限任务的训练。然而，基于 LLM 和 LMM 的基础智能体面向开放世界中的通用任务，这与任务专属奖励函数的能力相悖。因此，研究团队建立了能够适应广泛现实任务的通用奖励模型，包括结果监督 ORM 和过程监督 PRM，提供了不同粒度上的有效监督。
强化学习。相比于行为克隆，狭义的 RL 能更好地从失败中学习。对于基础智能体训练来说，这尤为重要，因为高质量的专家轨迹非常难获得。然而，将 RL 应用于基础智能体训练的挑战在于采样效率低。这个问题可以从两个方面理解：1）模拟器：当智能体在网页或安卓环境中进行探索时，其效率受限于网络连接速度和并行度上限。安卓虚拟设备等环境非常耗费内存。2）样本多样性：LLMs 和 LMMs 经过训练以输出特定的功能性动作。这种严格的功能格式通常要求模型进行过度拟合训练，采样结果单一。

在开发过程中，研究团队发现中间接口设计对于在基础智能体中解耦规划和执行（grounding）行为至关重要。通过将两者分离为不同模块，基础智能体可以从灵活性和准确性两个维度分别优化，且不会互相干扰。

通过这种方式，可以分别提高智能体的规划和执行的能力，实验显示，训练的执行模块显著提升了基于专有 LLM/LMM API 的规划器的性能。

图｜VAB-WebArena-Lite 上中间界面设计实验。

他们还发现，虽然中间接口设计有助于减轻执行中的错误问题，但如何良好规划仍然是一个挑战。许多现有的智能体工作基于专有的 LLM/LMM API，其规划能力无法通过训练进一步提升。

因此，他们决定通过 RL 探索自有规划器的训练，并开发了一个自进化的在线课程 RL 框架------WebRL 来缓解 RL 面临的用户任务或专家轨迹数据不足、策略分布漂移的问题，用于从头开始训练基础智能体。

评估结果

安卓端评估

他们在 AndroidLab（即 VAB-Mobile）和常见的安卓 APP 上的高频任务中评估了 AutoGLM 的能力。

AndroidLab 是一个互动式安卓基准测试环境，支持系统性评估，涵盖了一些离线可部署的英语 APP。相比于其他如 AITW 的现有基准测试，其互动性允许对安卓智能体进行更具实际意义的评估并通过强化学习进行改进。他们评估了代表性的专有 LLM/LMM API、在提供的行为克隆数据上微调的开放模型以及 AutoGLM。

结果表明，AutoGLM 在 AndroidLab 上的成功率为 36.2%，在所有对比的智能体中表现最佳。

图｜AndroidLab 上不同智能体的成功率。

为了测试 AutoGLM 在公共用户环境中的实际部署能力，他们还在 7 款常见的安卓 APP（包括微信、美团、淘宝、大众点评、高德地图、小红书和12306）上仔细评估了其高频任务表现。

他们为每个 APP 定制了一组测试查询，并在人类评估的全程执行轨迹中确定最终的成功率。他们的评估在安卓手机上进行，利用 Accessibility Service 应用程序反映实际的使用场景。

图｜在 APP 上评估 AutoGLM 的测试查询示例。

结果显示，AutoGLM 在这些应用中的表现令人满意，尽管尚未完全解决所有任务，未完成的任务也能部分完成，从而在实际场景中为用户提供操作速度上的帮助。

图｜AutoGLM 在 APP 上的人工评估成功率。

网页端评估

他们使用 VAB-WebArena-Lite 和在线人类评估数据集 OpenTable 进行了交互式基准测试，在这些环境中优化训练 AutoGLM。

VAB-WebArena-Lite 是原始 WebArena 的一个精简版，包含 165 个任务，并对答案和判定功能进行了人工验证。其设计意图是加速 WebArena 上的评估过程并确保评判的准确性。

他们评估了代表性的专有 LLM/LMM API、开放模型、最近的智能体框架以及 AutoGLM。实验结果显示，AutoGLM 在该基准测试上显著提升了表现，缩小了自主智能体与人类之间的性能差距。

图｜不同智能体在 VAB-WebArena-Lite 上的成功率。

与 Agent Q 的评估方法类似，他们也在真实网站 OpenTable 上对 AutoGLM 进行了测试。由于 Agent Q 的数据集未公开，研究团队根据其论文中的示例（"为 4 人预订 2024 年 5 月 22 日晚上 7 点在 Cecconi's 的餐厅座位"）重新构建了一个包含 200 个样本的测试集，并在真实的 OpenTable 网站上进行了人类评估。

结果显示，AutoGLM 在此真实世界场景中超越了 GPT-4o 和 Agent Q。

图｜不同智能体在 OpenTable 上的成功率。

未来，AutoGLM 将进一步完善其模型和应用场景，加速智能助手在数字化生活中的普及。