《CogAgent: A Visual Language Model for GUI Agents》论文精读笔记

前言

摘要

人们在通过图形用户界面（GUIs），例如计算机或智能手机屏幕，与数字设备交互时，花费了大量时间。尽管大型语言模型（LLMs），如ChatGPT，可以在写邮件等任务中为人们提供帮助，但它们在理解和操作图形用户界面方面存在困难，从而限制了其在提高自动化水平方面的潜力。

在这篇论文中，我们介绍了CogAgent ，一个专注于GUI理解与导航的180亿参数的视觉语言模型（VLM）。通过采用低分辨率和高分辨率图像编码器，CogAgent支持最高1120×1120的输入分辨率，使其能够识别极小的页面元素和文本。

作为一个通用视觉语言模型，CogAgent在五个包含丰富文本的视觉问答（VQA）基准和四个常规VQA基准上达成了最新的性能水准（state of the art），包括VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。

在PC和Android的GUI导航任务中，仅使用截图作为输入的CogAgent，在性能上超越了以提取的HTML文本作为输入的基于LLM的方法（如Mind2Web和AITW），进一步推动了这一领域的技术前沿。

一、引言

这是许多现代人梦寐以求的理想场景：你只需输入一项任务的描述，然后悠闲地享用一杯咖啡，看着任务（例如在线订票、执行网页搜索、管理文件以及制作PowerPoint演示文稿）自动完成。最近，基于大型语言模型（LLMs）的智能体的出现，正在让我们接近这一梦想。

例如，AutoGPT [33] 是一个拥有15万颗星的开源项目，它通过集成ChatGPT [29]，结合预定义的操作（如谷歌搜索和本地文件操作），将语言理解与具体的任务执行能力结合起来。此外，研究人员也已经开始开发面向智能体的LLM [7, 42]。

然而，纯语言驱动的智能体在实际场景中的潜力是有限的，因为大多数应用通过++图形用户界面（GUI）++与人类交互。

GUI具有以下特点：

缺乏标准化的交互API。

重要信息（如图标、图片、图表和空间关系）难以通过文字直接传递。

即便是基于文本渲染的GUI（例如网页），某些元素（如canvas和iframe）也无法通过HTML解析来理解它们的功能。

基于视觉语言模型（VLM）的智能体有潜力克服这些限制。与仅依赖HTML 或 OCR结果的文本输入不同，基于VLM的智能体能够直接感知GUI的视觉信号。由于GUI是为人类用户设计的，只要VLM能够达到人类视觉理解的水平，它们就能像人类一样高效地完成任务。此外，VLM还具有人类用户通常难以达到的能力，例如极快的阅读速度和编程能力，从而扩展了VLM驱动的智能体的潜力。

此前的一些研究只是将视觉特征用作特定场景中的辅助信息，例如WebShop [39]，其主要利用视觉特征进行对象识别。然而，随着VLM的快速发展，我们是否可以通过仅依赖视觉输入，自然地实现GUI交互的通用性？在本文中，我们提出了CogAgent，一个专注于GUI理解与规划的视觉语言基础模型，同时在跨模态任务中也保持了强大的通用能力。

基于最近的开源VLM（CogVLM ），CogAgent解决了构建GUI智能体面临的以下挑战：

训练数据：目前的大多数VLM是在类似LAION 的数据集上预训练的，这些数据集主要包含网络上的自然图像。然而，我们注意到，GUI图像与自然图像分布不同。因此，我们构建了一个大规模的GUI图像和OCR标注数据集，用于持续预训练。
高分辨率与计算成本的平衡：在GUI中，小图标和文本随处可见，而在通常使用的224×224分辨率下很难识别这些细节。然而，提高输入图像的分辨率会显著增加语言模型的序列长度。例如，一张1120×1120的图像，如果patch大小为14，那么对应的序列长度为6400，这对训练和推理的计算要求极高。为了解决这一问题，我们设计了一个交叉注意力分支，在计算预算内，实现了分辨率和隐藏层大小之间的折中。具体而言，我们提出将CogVLM 中原有的大型视觉Transformer（ViT）（4.4B参数）与一个新的小型高分辨率交叉模块（具有0.30B参数的图像编码器）结合使用，以联合建模视觉特征。

我们的实验表明：

CogAgent在GUI理解和决策基准（如AITW 和Mind2Web ）中表现出色。据我们所知，这是第一次通用VLM在性能上超越了基于LLM的结构化文本提取方法。
尽管CogAgent专注于GUI，它在九个视觉问答（VQA）基准（包括VQAv2 、OK-VQA 、TextVQA 、ST-VQA 、ChartQA 、infoVQA 、DocVQA 、MM-Vet 和POPE ）上也达到了最先进的性能（state-of-the-art）。
CogAgent中高分辨率和低分辨率分支的分离设计显著降低了处理高分辨率图像的计算成本。例如，CogAgent-18B在处理1120×1120输入时的浮点运算次数（FLOPs）不到CogVLM-17B处理490×490输入时的一半。

二、方法

在本节中，我们将首先介绍CogAgent的架构，特别是新颖的高分辨率交叉模块（high-resolution cross-module），然后详细说明预训练和对齐的过程。

2.1. 架构

CogAgent的架构如图2所示。

我们以一个预训练的视觉语言模型（VLM）为基础（图中右侧），并提出添加一个交叉注意力模块（cross-attention module）来处理高分辨率输入（图中左侧）。作为基础的VLM，我们选择了开源且性能领先的CogVLM-17B，这是一个最先进的大型视觉语言模型。

低分辨率图像处理

具体来说，我们使用EVA2-CLIP-E 作为++低分辨率图像（224×224像素）的编码器++ ，并通过一个MLP适配器（adapter） 将其输出映射到视觉语言解码器的特征空间中。解码器是一个预训练的语言模型 ，使用由Wang等人提出的视觉专家模块（visual expert module） 进行了增强，以便实现视觉特征与语言特征的深度融合。解码器处理低分辨率图像特征序列与文本特征序列的组合输入，并以++自回归方式生成目标文本++。

高分辨率图像处理的挑战

与大多数VLM类似，原始的CogVLM只能处理相对低分辨率的图像（224或490像素）。然而，这很难满足GUI任务的需求，因为计算机或智能手机的屏幕分辨率通常为720p（1280 × 720像素）或更高。这是当前VLM普遍存在的问题，例如LLaVA 和PALI-X 也仅在224×224分辨率的通用领域上进行了预训练。

高分辨率图像处理的主要困难在于，其会带来巨大的时间和内存开销。VLM通常将文本和图像的特征序列拼接为解码器的输入，而++自注意力模块（self-attention module）的计算开销是视觉token数量的平方关系，而视觉token数量又与图像边长呈平方关系。++因此，高分辨率图像处理会导致开销呈指数级增长。

现有方法的局限

一些初步研究尝试降低高分辨率图像处理的成本。例如：

Qwen-VL 提出了一个位置感知的视觉语言适配器（position-aware vision-language adapter），压缩了图像特征，但仅将序列长度减少了4倍，能够支持的最大分辨率为448 × 448。
Kosmos-2.5 采用了一个感知器重采样模块（Perceiver Resampler module）来减少图像序列的长度。然而，重采样后的序列长度仍然较大（2,048个token），对于大型视觉语言解码器中的自注意力机制依然开销巨大，而且只能应用于有限的文本识别任务。

高分辨率交叉模块

为此，我们提出了一种新颖的高分辨率交叉模块，作为现有结构的有效补充，用于增强高分辨率条件下的理解能力。该模块不仅在处理高分辨率图像时保持了计算效率，还提供了对多种视觉语言模型架构的灵活适应性。

总结来说，CogAgent的架构通过在低分辨率处理的基础上引入高分辨率交叉模块，成功解决了现有VLM在高分辨率处理时的效率与适用性问题，从而为GUI任务提供了更强大的视觉语言理解能力。

2.2 高分辨率交叉模块

高分辨率交叉模块的结构设计主要基于以下观察：

分辨率对图像表现的影响：在224 × 224的中等分辨率下，图像可以有效地描绘大多数物体和布局，但对于文本的清晰呈现仍显不足。因此，我们提出的新高分辨率模块需要着重处理与文本相关的特征，因为这些特征对理解GUI至关重要。
特定任务对隐藏层大小的需求：通用领域的预训练VLM通常需要更大的隐藏层大小（如PALI-X和CogVLM为4,096，LLaVA为5,120）；然而，针对以文本为中心的任务（如文档OCR）的VLM可以通过较小的隐藏层大小实现令人满意的性能（如Kosmos-2.5和Pix2Struct [16]的隐藏层大小为1,536）。这表明，与文本相关的特征可以通过较小的隐藏层大小高效捕获。

如图2所示，高分辨率交叉模块作为处理高分辨率输入的新分支，在我们的实现中支持尺寸为1120 × 1120像素的图像。与原始的低分辨率输入分支不同，高分辨率交叉模块采用了一个更小的预训练视觉编码器（在我们的实现中为EVA2-CLIP-L ，只有0.30B参数），并使用小隐藏层尺寸的交叉注意力机制，与VLM解码器的每一层融合高分辨率图像特征，从而降低计算成本。

对于一张输入图像，它会被分别调整为1120 × 1120和224 × 224的分辨率，并分别输入到高分辨率交叉模块和低分辨率分支中，然后通过两个不同的图像编码器并行编码为图像特征序列和。视觉语言解码器仍然保持其原有的计算方式，唯一的变化是，在解码器的每一层中添加了高分辨率图像特征与隐藏状态之间的交叉注意力机制。

形式化表达如下：假设解码器中第 i 层注意力模块的输入隐藏状态为：

高分辨率图像编码器的输出隐藏状态为：

其中：

B 为批大小；
,,分别为低分辨率图像序列、高分辨率图像序列和文本序列的长度；
和分别为解码器和高分辨率编码器的隐藏层大小。

每层的注意力过程可以表述为：

自注意力计算：
交叉注意力计算:

其中，MSA和MCA分别表示多头自注意力（Multi-Head Self-Attention）和多头交叉注意力（Multi-Head Cross-Attention），而 Xi′和 Xouti分别表示残差连接后的输出特征。

要在其中实现交叉注意力，我们在每层解码器中引入可学习的转换矩阵,通过以下公式计算：

同时，还引入:

结合残差连接（见公式2），与高分辨率图像的交叉注意力可以被看作是低分辨率图像特征的补充，从而实现对低分辨率预训练模型的高效利用。

计算复杂度

假设交叉注意力和自注意力分别有和个注意力头，每个头的维度分别为和。如果使用高分辨率交叉模块，注意力的计算复杂度为：

如果不使用高分辨率交叉模块，直接用高分辨率图像替代低分辨率图像，则复杂度为：

在我们的实现中，设定,，并继承了CogVLM-17B中的设置。高分辨率和低分辨率编码器都使用14 × 14像素的patch分块，因此。我们的方法在计算加速方面至少达到了：

这是加速比的下界，即使在最差情况，这个改进方法也能达到这个效果，显著减少了内存开销。

2.3 预训练

为了增强模型对高分辨率图像的理解能力，并使其适应GUI应用场景，我们的预训练工作重点关注以下几个方面：识别高分辨率图像中各种大小、方向和字体的文本能力，文本和图像中对象的对齐能力，以及对GUI图像（如网页）的专门理解能力。基于上述方面，我们将预训练数据分为三部分，样本展示见附录。所有的预训练数据均来自公开可用的数据集，具体的数据构建方法如下。

文本识别

我们的数据包括以下部分：

合成渲染文本数据（80M样本） ：从语言预训练数据集中生成，类似于Kim等人所述的合成文档生成器（Synthetic Document Generator）。生成的数据包含不同字体、尺寸、颜色和方向的文本，背景来自LAION-2B中的多样化图像。
自然图像的光学字符识别（OCR）数据 （18M样本）：我们从COYO和LAION-2B中收集自然图像，并使用Paddle-OCR提取文本及其边界框。如果图片中没有文本框，则将其过滤掉。
学术文档数据（9M样本）：我们遵循Nougat的方法，从arXiv上公开的LaTeX源代码中构造图像-文本对，包括文字、公式和表格。

对于（1）和（3），我们采用了与Nougat一致的数据增强方法；对于（2），我们额外使用了更激进的旋转和翻转数据增强技术。

视觉对齐

对于GUI智能体来说，准确理解并定位图像中各种元素的能力至关重要。我们遵循CogVLM的方法，利用一个由40M图像构成的视觉对齐数据集，该数据集从LAION-115M中抽取了带有图像-文本对的样本，并通过为文本中的实体匹配边界框来表明它们的位置。边界框的格式为[[x0, y0, x1, y1]]，其中(x0, y0)和((x1, y1)分别表示左上角和右下角的坐标，坐标值经过归一化到[000, 999]。如果一个名词短语指代多个对象，则它们的边界框使用双方括号并以分号分隔。

GUI图像

我们的方法创新性地解决了LAION和COYO等数据集中GUI图像稀缺且相关性有限的问题。这些数据集主要以自然图像为主，而GUI图像包含独特的元素，如输入字段、超链接、图标及特有的布局特征，需要专门处理。

为了提升模型理解GUI图像的能力，我们设计了两个创新性的GUI对齐任务：

GUI指代表达生成（REG，Referring Expression Generation） ：模型需要根据截图中指定的区域生成DOM（文档对象模型）元素对应的HTML代码。
GUI指代表达理解（REC，Referring Expression Comprehension）：任务是为给定的DOM元素生成对应的边界框。

为了在GUI对齐任务中实现强大的训练效果，我们构建了CCS400K（Common Crawl Screenshot 400K）数据集。这个大规模数据集通过从最新的++Common Crawl数据++ 中提取URL，捕获40万张网页截图生成。同时，我们利用++Playwright工具++提取所有可见的DOM元素及其对应的渲染边界框，进一步生成1.4亿个REC和REG问题-答案对。这一丰富的数据集确保了对GUI元素的全面训练和理解。

为了缓解过拟合的风险，我们在渲染时随机选择多样化的屏幕分辨率（从常见设备的分辨率列表中随机挑选）。此外，为避免HTML代码过于冗长和复杂，我们对DOM元素进行了必要的数据清理，去掉冗余属性，具体方法参考Pix2struct。

在预训练中，我们还使用了包括LAION-2B和COYO-700M在内的公开文本-图像数据集（在此之前移除了损坏的URL、不适合公开的内容(NSFW)、带有噪声的描述以及存在政治偏见的图像）。

预训练设置

我们对CogAgent模型进行了总共++60,000次迭代++的预训练，批量大小为4,608，学习率为2e-5。

在最初的20,000步中，我们冻结了除新增的高分辨率交叉模块外的所有参数，仅训练新增模块，总共可训练参数为646M（占比3.5%）。

在接下来的40,000步中，我们进一步解冻了CogVLM中的视觉专家模块。

为实现更稳定和更快的训练收敛，我们采用了课程学习（curriculum learning） 的方式，按照从易到难的顺序依次加入训练数据：

首先进行较简单的文本识别 任务（++合成渲染文本数据和自然图像OCR数据++ ）及图像描述生成 任务（Image Captioning）。
随后逐步引入更难的文本识别 任务（++学术文档数据++ ）、视觉对齐数据 和网页数据。

在初步实验中，我们观察到这种课程学习方式能够显著加快收敛速度，并使训练更加稳定。

2.4 多任务微调与对齐

为了增强模型在多样化任务中的表现，并确保其在GUI场景中能够对自由格式的人工指令进行良好的对齐，我们对模型进行了多任务微调。

我们++手动收集了两千多张来自手机和计算机的屏幕截图++ ，并由人工标注了屏幕中的元素、潜在的任务以及操作方法，以++问答格式（question-answering）++ 的形式记录（具体细节见附录）。此外，我们还利用了Mind2Web和AITW两个专注于网页和Android行为的数据集。这些数据集包含任务、操作序列和对应的屏幕截图，我们++使用GPT-4将其转换为自然语言的问答格式++。

与此同时，我们还将多个公开可用的视觉问答（VQA, Visual Question Answering）数据集（涵盖多种任务）纳入到我们的对齐数据集中。

在这一阶段，我们解冻了模型的全部参数，并以批量大小为1024、学习率为2e-5的设置进行了10,000次迭代的训练。

三、实验

为了评估我们模型的基础视觉能力和GUI相关性能，我们在多个数据集上进行了广泛的实验。首先，我们使用八个VQA（视觉问答）基准数据集、MM-Vet和POPE进行测试，这些数据集验证了模型在视觉理解能力上的提升，尤其是在依赖文本识别的任务上。随后，我们在Mind2Web和AITW数据集上评估了模型的性能，这两个数据集分别代表了计算机和智能手机两大主要GUI场景。

3.1 基础视觉理解

我们首先在八个VQA基准数据集上，全面评估了CogAgent的基础视觉理解能力，涵盖了广泛的视觉场景。这些数据集可以分为两类：

通用VQA：包括VQAv2和OK-VQA；
富含文本的VQA：包括TextVQA、OCR-VQA、ST-VQA、DocVQA、InfoVQA和ChartQA。

第二类数据集侧重于对视觉环境中文本的理解，包括文档、图表以及包含文本的照片等。

为了展示模型在不同任务中的通用性和鲁棒性，我们对模型进行了多数据集联合微调，训练出一个通用模型并在所有数据集上进行了评估。结果如表1所示：

在通用VQA任务中，CogAgent在两个数据集上均达到了当前最优（SOTA）的通用模型结果。
在富含文本的VQA任务中，CogAgent在6个基准数据集中的5个上达成了SOTA结果，相较于其他通用模型有显著提升（TextVQA提升+8.0，ChartQA提升+2.1，InfoVQA提升+2.3，DocVQA提升+16.2）。此外，在TextVQA（+4.7）、ST-VQA（+0.6）和DocVQA（+1.6）上甚至超越了任务特定的SOTA模型。

值得注意的是，与CogAgent的初始基础模型CogVLM的通用结果相比，CogAgent在通用和富含文本的VQA任务上均表现出了一定的性能提升，这表明我们提出的模型架构与训练方法的有效性。

此外，我们在具有挑战性的MM-Vet和POPE数据集上对模型进行了零样本测试。这两个数据集用于评估模型在复杂任务中的多模态能力和泛化性能，包括对话问答、详细描述和复杂推理任务。

MM-Vet包含六项核心任务，用于评估多模态模型处理复杂任务的能力。
POPE评估模型在抗击幻觉（hallucination）方面的表现。

实验结果详见表2。我们的模型在这两个数据集上均显著优于现有模型：

在MM-Vet数据集上，CogAgent取得了52.8分的优异成绩，大幅领先于最接近的竞争对手LLaVA-1.5（+16.5分）。
在POPE对抗性评估中，CogAgent取得了85.9分，在处理幻觉问题上表现出明显优势。

3.2 GUI智能体：计算机界面

我们在Mind2Web数据集上对CogAgent进行了评估。Mind2Web是一个针对网页智能体的数据集，包含来自137个真实网站的超过2,000个开放式任务，分布于31个领域。给定任务描述、当前网页快照和先前的操作记录作为输入，智能体需要预测下一步操作。

我们参考了Deng等人的实验设置，使用**"步骤成功率"（step success rate, step SR）** 作为评价指标。多个语言模型在该基准上进行了评估，例如：

AgentTuning和MindAct分别对LLaMA2-70B和Flan-T5-XL进行了微调；
GPT-3.5和GPT-4则采用了上下文学习（in-context learning）的形式。

然而，由于语言模型的输入模态限制，++这些模型只能使用经过高度清洗的HTML作为屏幕输入的表示形式。++据我们所知，目前尚无基于视觉的网页智能体在该基准上进行过测试。

我们在训练集上微调了CogAgent，并在三个跨域子集上进行了评估，包括跨网站（cross-website）、跨领域（cross-domain）和跨任务（cross-task）。此外，我们还微调了LLaMA2-7B和LLaMA2-70B作为微调语言模型的基线，并采用与Deng等人相同的HTML清洗方法构造HTML输入。

结果见第3.2节。与其他方法相比，我们的方法在所有三个子集上均取得了显著的性能提升：

比规模几乎是CogAgent四倍的LLaMA2-70B分别高出11.6%、4.7%和6.6%。

这不仅反映了我们模型的能力，也展示了在计算机GUI场景中采用视觉智能体的优势。

3.3 GUI智能体：智能手机界面

为了评估模型在不同智能手机界面和任务中的表现，我们使用了Android in the Wild（AITW）数据集。这是一个面向安卓设备智能体的大规模数据集，包含715,000个操作序列，涵盖了不同的Android版本和设备类型。数据集中，每个操作序列包括一个由自然语言描述的目标，随后的动作序列以及对应的屏幕截图。训练目标是根据给定的目标、历史动作和截图预测下一步操作。

对于每个操作，模型需预测具体的操作类型；对于点击（tap）、滑动（swipe）和输入（type）操作，模型还需预测点击位置、滑动方向以及输入的内容。

我们将模型与两种基线方法进行了对比：

使用数据集中UI元素的文本描述（OCR文本和图标）作为屏幕输入的语言模型；
使用图像作为屏幕输入的视觉-语言模型。

我们在所有子集上同时微调模型，训练出一个统一模型并在所有测试集上进行评估。由于GoogleApps子集的规模比其他子集大10至100倍，为避免数据不平衡，我们将其下采样至10%。

结果如表4所示：

与以语言为基础的方法相比，CogAgent在整体性能上大幅领先。
与视觉-语言基线Auto-UI相比，我们的模型在整体性能上提升了+2.61。

对于不准确的预测，我们随机抽取了数百个样本，并重新评估后发现超过40%的预测实际上是正确的（具体细节见附录）。这种多样性源于移动交互中固有的多种有效路径，导致答案可能存在多样性。

四、消融实验

为了深入理解方法中各种组件的影响，我们针对++模型架构++ 和++训练数据++两个方面进行了消融实验。这些评估在多个数据集上进行，包括多个VQA数据集（ST-VQA、OCRVQA、DocVQA）以及一个网页智能体数据集（Mind2Web）。

对于VQA数据集，我们将模型在四个数据集上联合微调3,000次迭代，批量大小为1280，并报告通用模型的性能；

对于Mind2Web，模型微调2,400次迭代，批量大小为128，使用top-10设置。相比主实验中的训练迭代次数，这里的次数较少，目的是在有限预算的约束下控制变量。

4.1 模型架构

为了验证高分辨率交叉模块的有效性，我们将其与使用原始CogVLM模型架构直接提高分辨率的方法进行了比较，并从++计算效率++ 和++模型性能++两个角度进行了消融实验。

计算效率

我们以浮点运算次数（FLOPs）作为计算开销的衡量指标，并在多种分辨率（224、490、756、1120）下开展实验。从图3可以看出：

随着图像分辨率的提高，使用高分辨率交叉模块的模型仅经历了适度的计算开销增加，与图像切块数量呈现出几乎线性的关系。
相比之下，使用原始结构（即CogVLM）的模型在更高的分辨率下会导致FLOPs显著增加。在分辨率为1120（CogAgent采用的分辨率）时，CogVLM的FLOPs甚至比使用交叉模块模型的FLOPs高出10倍以上。

模型性能

我们进一步在表5中比较了模型性能。

结果表明：

在分辨率为756时，使用高分辨率交叉模块的模型仅需原始架构在分辨率为490时一半的计算资源，却能显著提升性能。
此外，高分辨率交叉模块允许在有限的计算预算内进一步提升模型的可接受分辨率，从而带来额外的性能改进。

4.2 预训练数据

我们还对预训练数据进行了消融研究，这是训练视觉智能体的重要组成部分。基于视觉语言训练中常用的++图像-文字描述数据（image-caption data）++ ，我们依次添加了++OCR数据（记为Cap+OCR）++ ，以及++GUI和对齐数据（记为All）++。

结果如表6所示，表明每一部分数据都对性能提升起到了重要作用。

关键发现：

OCR数据的加入显著提升了模型在需要文本理解的任务（如VQA）中的表现。
GUI和对齐数据对Mind2Web数据集的影响尤为显著，说明在训练GUI智能体时，构建领域特定的预训练数据至关重要。

五、结论

我们提出了CogAgent，这是一种基于视觉语言模型（VLM）的GUI智能体，具备增强的预训练数据构建能力及高分辨率输入的高效架构。CogAgent在多个VQA和GUI基准测试中取得了当前最先进（state-of-the-art）的性能，并计划开源。

CogAgent作为基于VLM的GUI智能体的初步探索，仍然存在一些不足之处，例如输出坐标不够精确 ，以及无法处理多张图片的能力，这些都需要进一步的研究和改进。

细节待填充