《Attention-driven GUI Grounding》论文精读笔记

论文链接:[2412.10840] Attention-driven GUI Grounding: Leveraging Pretrained Multimodal Large Language Models without Fine-Tuning


摘要

近年来,多模态大型语言模型(Multimodal Large Language Models,MLLMs)的进展引发了人们对其在自主交互和解读图形用户界面(Graphical User Interfaces,GUIs)能力方面的极大兴趣。这些系统面临的一个主要挑战是定位(grounding)------即根据GUI图像和对应的文本查询,准确识别关键的GUI组件(如文本或图标)。传统上,这一任务依赖于通过专门的训练数据微调MLLMs,使其能够直接预测组件位置。

然而,在本文中,我们提出了一种全新的**无调优注意力驱动定位(Tuning-free Attention-driven Grounding, TAG) **方法,该方法++利用预训练MLLMs中固有的注意力模式,在无需额外微调的情况下完成这一任务。++

我们的方法通过在精心构建的查询提示中找到特定tokens的注意力图,并对这些注意力图进行聚合,从而实现定位。将该方法应用于MiniCPM-Llama3-V 2.5(一个最先进的MLLM),我们的无调优方法在性能上达到了与基于微调的方法相当的水平,特别是在文本定位任务中取得了显著成功。此外,我们证明了基于注意力图的定位技术显著优于MiniCPM-Llama3-V 2.5的直接定位预测,突显了预训练MLLMs的注意力图的潜力,并为该领域未来的创新铺平了道路。


一、引言

将人工智能与图形用户界面(Graphical User Interfaces,GUIs)相结合,具有巨大的潜力,可以彻底改变人类与软件系统的交互方式。在这一创新的前沿,多模态大型语言模型(Multimodal Large Language Models,MLLMs)表现出色,能够在各种应用场景中高效地理解GUIs。然而,在人工智能应用于GUI的任务中,GUI定位(GUI grounding) 是一项至关重要的任务,其目标是准确识别和定位GUI中的关键组件(如文本和图标),因为这是实现GUI自动化操作的基础。

尽管MLLMs在理解GUI图像方面表现出色,但要实现对GUI元素的精确定位仍然面临挑战。当前最先进的解决方案通常依赖于在专门的数据集上微调MLLMs,以提升它们的GUI定位能力,例如(Hong et al. 2023;Cheng et al. 2024)等工作中所展示的方法。这些方法通过让MLLM直接预测GUI元素的位置来完成任务。

与此不同,我们的方法走了一条不同的路径。它通过利用预训练MLLM固有的注意力模式,利用模型现有的空间感知能力和注意力机制,无需额外的微调便能够实现准确的GUI定位 。为此,我们提出了一种新颖的**无调优注意力驱动定位(Tuning-free Attention-driven Grounding, TAG)**方法,该方法通过精心选择和聚合来自MiniCPM-Llama3-V 2.5这一最先进MLLM的注意力模式,完成GUI元素的定位。

我们的方法首先++从用户输入的查询或模型生成的响应中识别特定的tokens,然后将对应的注意力值反映到图像平面上。++为了进一步提升性能,我们设计了一种选择机制,用于筛除无关的注意力头,确保仅利用最相关的注意力信息来实现准确的定位。

我们将该方法与现有的基于微调的GUI定位方法进行了对比。结果表明,利用预训练模型中的注意力模式可以实现准确的GUI元素定位。此外,我们的方法在文本定位任务中表现出显著的提升。研究结果表明,充分挖掘模型固有能力的潜力可以带来更强大、可扩展且高效的MLLM在GUI自动化中的应用。这也为未来开发更鲁棒、更高效的GUI自动化系统铺平了道路。


二、相关工作

用于GUI智能体的多模态大型语言模型(MLLMs)

MLLMs的应用标志着人工智能在与图形用户界面(GUIs)交互能力方面的重大进展。这些模型能够理解用户查询和图像,从而在从桌面到移动设备等各种平台上完成任务。近年来,该领域的研究探索了多种应用场景,包括在桌面界面上自动化执行日常任务以及在移动平台上提供交互式辅助功能。

这些应用展示了MLLMs作为自主智能体的潜力,它们能够理解用户命令并在不同平台上执行任务。然而,挑战在于如何有效地训练这些模型,使其能够处理GUI的复杂性和多样性,同时避免对领域特定数据的广泛调优。

GUI智能体中的定位(Grounding)

GUI智能体中的定位指的是模型准确定位和识别界面元素的能力,这是实现高效交互的关键。传统方法通常需要在详细注释的数据集上进行微调。最近的研究探索了监督和无监督技术,以提高定位的准确性。例如,SeeClick模型通过在GUI特定数据集上进行微调来实现更高的定位精度。

然而,这些方法可能面临可扩展性问题 ,并容易出现过拟合现象。我们的研究通过提出一种无调优方法,为该领域做出了贡献。这种方法利用预训练MLLMs固有的注意力机制,将文本查询与视觉元素相关联,从而提供了一种具有可扩展性和适应性的定位解决方案。


三、我们的方法

3.1 基础知识:GUI定位

GUI定位是图形用户界面(GUI)智能体理解和交互中的一项关键任务,它要求系统能够理解用户的文本查询,例如"我想预订周二的牙医预约",分析GUI截图,并准确定位相关组件。尽管近年来多模态大型语言模型(MLLMs)在理解文本查询和视觉GUI布局方面展现出了潜力,但如果不借助OCR(光学字符识别)或Setof-Mark等额外工具,它们通常难以精准地定位元素。因此,当前的SOTA(最先进)方法通常依赖于在专门训练数据上的微调来直接实现精确的元素定位。

MiniCPMV2.5及其注意力映射

MiniCPMV2.5(即MiniCPM-Llama3-V 2.5)是最先进的MLLM之一,集成了视觉编码器、token压缩模块和Llama3语言模型。它支持高达1344×1344像素、任意宽高比的高分辨率图像,使其非常适合处理精确的GUI定位任务。

针对高分辨率输入生成的大量视觉token,该模型使用跨注意力(cross-attention)将数千个视觉patch嵌入压缩为固定大小(Q)的视觉查询token集合。

这些视觉查询token随后与文本token一起由Llama3处理,Llama3通过多层transformer和多头自注意力机制融合两种模态。有关更多详细信息,请参阅(Yao et al. 2024)的报告。

MiniCPM-V模型结构如下:

MiniCPM-V 的视觉编码器基于 SigLIP SoViT-400m/14 (一种改进的 Vision Transformer)作为核心,并采用了 自适应视觉编码方法(Adaptive Visual Encoding),以高效处理高分辨率图像并兼顾细粒度视觉理解能力。其流程主要包含以下几部分:

自适应切片(Image Partitioning)

  • 针对高分辨率和不同宽高比的图像,采用自适应切片策略,将图像划分为多个切片,使每个切片的分辨率尽可能接近 ViT 的预训练分辨率(例如 224×224 或 384×384)。
  • 切片策略通过一个评分函数优化切片的行列分布,确保切片与 ViT 的预训练分辨率兼容,同时限制切片总数(如 N<10),以控制计算开销。

切片编码(Slice Encoding)

  • 每个切片在输入 ViT 之前被调整为接近预训练分辨率的尺寸,同时对 ViT 的位置编码进行插值,使其适配切片的实际比例。
  • 通过这种方式,ViT 能够以最佳性能提取每个切片的特征表示。

位置编码与全局信息保留

  • 在切片特征中加入位置编码,保留切片在原始图像中的空间位置信息。
  • 此外,原始完整图像也被作为额外的切片输入,为模型提供全局视角。

Token 压缩(Token Compression)

  • 每个切片的视觉特征由 ViT 提取为 token(如 1,024 个),但多个切片的累计 token 数量可能会过高(例如 10 个切片会产生超过 10k 个 token),对计算和存储带来较大压力。
  • 为此,引入了 压缩层,通过一层交叉注意力将每个切片的 token 压缩为少量查询 token(如 64 个或 96 个)。这种设计显著降低了计算成本,同时保持了关键视觉信息。

空间位置信息增强

  • 为了进一步明确每个切片在图像中的位置,模型通过 <slice></slice> 特殊标记包裹每个切片的 token,切片之间用 \n 分隔,从而增强了跨切片的空间信息建模能力。

(25 封私信) MiniCPM-V技术报告详细翻译解读: 端侧GPT-4V级别多模态大语言模型 - 知乎

如图1所示,实验结果表明,当输入GUI图像时,MiniCPMV2.5在理解UI布局和准确识别图像中的光学字符方面表现出较强的能力。此外,由于其在与对象检测相关任务上的训练,MiniCPMV2.5能够通过预测目标对象的边界框实现对象定位。

我们的方法旨在通过利用MiniCPMV2.5中的注意力图进一步增强定位性能。

具体而言,MiniCPMV2.5主要包含两个部分:token压缩模块和Llama3语言模型,这两个部分都可以提取注意力权重。

在token压缩模块中,可以++从跨注意力层中获得注意力值。++ 通过对所有注意力头的注意力权重进行平均,我们可以得到一个注意力图 ,其中Q是视觉查询token的数量,H和W分别是分块图像的高度和宽度。

在Llama3语言模型中,自注意力权重可以表示为 ,其中N是多头自注意力(MHA)层的总数乘以每个MHA的注意力头数,M是输入到LLM的token数量,包括视觉token和文本token。

3.2 方法的概述

该方法专注于从MiniCPMV2.5中选择并聚合注意力权重,以实现GUI元素的精确定位。

核心见解在于:精心设计的选择和聚合策略对于成功至关重要。具体来说,我们的方法包括以下三个组成部分:

1.自适应文本token选择

包含所有token对的自注意力值,但并非所有令牌对都对有效的定位有贡献。本组件的目标是识别最相关的令牌之间的注意力,从而确保定位的准确性。

2.基于注意力驱动的GUI定位

该组件聚合,利用这两个注意力图识别元素的定位位置。

  1. 自注意力头选择

该组件通过在Llama3中的1024个注意力头中选择高质量的注意力头,进一步提升定位的准确性。


3.3 自适应文本token选择

GUI定位任务的目标是定位与用户查询相关的界面元素。然而,用户查询通常包含许多token,但并非所有token都与目标GUI元素相关。一些查询会明确指出目标元素,例如"跳转到下一页"暗示点击"下一页"按钮,而另一些查询则是间接表达的,例如"使用照片作为输入"间接指向GUI中的"相机"按钮。

如图5所示,复杂的多步骤查询在动态UI变化的情况下可能难以与界面元素对齐,从而导致不准确的定位。因此,必须开发一种机制来++选择关键token++ ,并++利用相关的自注意力权重以实现准确的GUI定位。++

基于MiniCPMV2.5在理解GUI图像方面的强大能力,我们提出了一种简单但有效的策略:

  1. 通过构造查询prompt,引导模型首先显式生成与查询相关的内容或元素的描述;
  2. 然后,我们利用这些描述性token 与视觉token之间的注意力权重来实现定位。

此方法通过弥合用户查询与UI元素之间的差距,显著提升了GUI定位的性能。


3.4 基于注意力驱动的GUI定位

如3.1节所述,图像token并不会直接输入到LLM中,而是首先被压缩为视觉查询token,然后再传递到LLM中。这意味着,与目标GUI元素内容或描述相关的已选文本token,可能无法直接关注图像的区域。

为了解决这一问题,我们提出了一种从已选文本token到图像网格传播注意力的方法。

具体而言,如图2所示,我们利用3.3节中的已选文本token,生成逐头的注意力图 ,其中表示Llama3中所有层多头自注意力机制中,这些文本token与视觉查询token之间的注意力值。这里,N、T 和 Q 分别表示Llama3中的注意力头数量、已选文本token数量以及视觉查询token数量。

为获取每个已选文本token与视觉查询token之间的整体关系,我们通过加权求和聚合不同注意力头的注意力值:

其中,k 是注意力头的索引,是第k个注意力头和第j个已选文本token的聚合权重。关于如何设置的策略将在3.5节中讨论。

得到 后,这表示每个已选文本token对每个视觉查询token的注意力,我们将每个视觉查询token的注意力传播到对应的图像patch token,使用 来实现。这通过一个简单的矩阵乘法完成:

直观上,这个操作将每个视觉查询token接收到的注意力分布到对应的图像patch token上,比例由视觉查询token和每个图像patch token之间的注意力值决定。

最后,为获取查询文本和图像patch之间的整体关系,我们对不同的已选文本token取平均值:

表示图像patch与查询之间的相关性。为实现像素级定位,我们首先通过为patch内的所有像素分配相同的值,将相关性得分从patch映射到像素级(例如一个14×14像素网格)。

接下来,我们应用一个阈值δ对图像进行二值化,并识别出连通区域。选择平均相关性得分最高的区域,其中心点作为预测的位置。

3.5 自注意力头选择

通过实验证明,我们发现MiniCPMV2.5的LLM部分中的所有自注意力头在将文本token与图像patch对齐时,并非都同样有用。

如图3所示,为了在输入框中定位文本"搜索艺术家、专辑和更多",直接对所有头的注意力图进行简单平均会错误地将目标定位到搜索图标上。

为找到原因,我们进一步使用每个头的自注意力分别映射每个文本token到图像空间。正如图3右侧显示的,总有一些注意力头(用蓝色表示)将文本token映射到真实边界框以外的区域,这表明++并非所有注意力头都能有效地将token准确映射到预期区域。++

为了确定注意力头的质量,我们发现,选定文本token 和视觉查询token之间平均注意力值的大小可以作为一个良好的指标:

实验观察表明,当较大时,注意力头更有可能将文本token映射到目标区域(如图3所示,用红色表示的头通常在真实边界框内预测)。

基于这一观察,我们仅保留对应于的前K个最大值的注意力头。

此外,我们观察到,不同文本token的注意力头排序通常不同。因此,我们为每个token单独选择前K个注意力头。这种策略有效地将设置为"1"(对应于选定的注意力头),而将其他头的值设置为"0"。


四、实验

在本节中,我们将我们的方法与三种SOTA(State-of-the-Art)方法在三个基准数据集上进行对比,这些基准从不同的角度测试了我们方法的效果。此外,我们还进行了多项消融实验,以进一步分析我们方法的有效性。为了保证结果的可重复性,我们的方法使用贪心生成策略(greedy generation strategy),所有实验均可在一块NVIDIA RTX 4090显卡上完成。

4.1 任务1:光学字符定位(Optical Character Grounding,OCG)

我们的方法主要通过将文本token映射到图像空间来实现定位。为了直接验证我们的方法,我们基于Mind2Web数据集开发了一个光学字符定位基准(OCG benchmark)。

虽然Mind2Web最初是为基于文本的(HTML)GUI智能体评估设计的,适用于网站环境,但它也包含了对应的截图,我们利用这些截图创建了全新的数据集------OCG。

OCG数据集

首先,我们从Mind2Web测试集中收集了104个网站的主页截图。然后,我们使用Azure Vision API工具提取每张截图的OCR信息。该API可以识别截图中的所有文本,包括图像中的非界面元素文本,从而使我们可以评估MLLM(多模态大型语言模型)定位普通文本的能力。

此外,为了评估模型在不同图像宽高比下的性能,我们从主页截图中裁剪出对应于不同宽高比的子图像。我们仅保留完全落在这些子图像内的OCR边界框,用于评估。基于常见的屏幕分辨率,我们构建了10种不同的宽高比(宽度:高度):1:4、9:21、9:19、1:2、9:16、4:3、16:9、2:1、21:9和4:1。这种多样化的宽高比设置使我们能够全面评估模型在不同图像尺寸下的鲁棒性,这是现实应用中屏幕尺寸和方向变化显著情况下的一项关键要求。

基线方法

我们将我们的方法与三种知名模型进行了基准对比:

  1. MiniCPMV2.5:这是最近开源的SOTA MLLM,也是我们方法的基础模型。

  2. SeeClick:当前最先进的GUI定位方法。

  3. Qwen-VL-Chat:SeeClick的基础模型。

针对每个模型,我们使用了与其功能相对应的特定prompt:

  • 对于Qwen-VL-Chat,我们使用了:"Generate the bounding box of {query text}"(生成{query text}的边界框)。

  • SeeClick的prompt为:"In this UI screenshot, what is the position of the element "{query text}" (with point)?"(在这个UI截图中,元素"{query text}"的位置是什么?)。

  • MiniCPMV2.5的prompt为:"What is the bounding box of "{query text}" in the image? The bounding box output format is: <box>xmin ymin xmax ymax</box>. Please directly output the bounding box."(图像中"{query text}"的边界框是什么?边界框的输出格式为:<box>xmin ymin xmax ymax</box>。请直接输出边界框)。

对于我们的方法,我们使用prompt:"What is the bounding box of "{query text}""("{query text}"的边界框是什么)。由于查询文本是通过OCR提取的,与图像中的对应文本高度对齐,因此我们直接使用查询文本来完成定位任务以验证我们的方法。

结果

如表1所示,基础模型Qwen-VL-Chat虽然能够检测一般对象,但在OCG任务中无法有效定位查询文本。相比之下,更先进的MiniCPMV2.5在文本定位能力上有所提升。然而,MiniCPMV2.5在不同宽高比下的性能差异很大,例如在4:3宽高比上达到了80.2%的准确率,但在9:21宽高比上却仅有13.6%。我们推测,尽管该模型支持任意宽高比的输入,但其预训练数据可能无法涵盖所有宽高比的图像,因此其++定位能力很难很好地泛化到未见过的宽高比++。

在经过GUI特定数据集的微调后,SeeClick在OCG任务上的表现相比Qwen-VL-Chat有了显著提升,甚至优于更先进的MiniCPMV2.5模型。

值得注意的是,我们的方法在没有额外的微调(SFT)的情况下,大幅增强了MiniCPMV2.5的定位能力。在10种不同宽高比设置下,我们的平均准确率达到了84.5%,比MiniCPMV2.5高出36.4%,比SeeClick高出24.3%。


4.2 任务2:GUI元素定位

接下来,在ScreenSpot数据集上评估了我们的方法,该数据集是一个GUI元素定位的基准测试集。

ScreenSpot数据集

ScreenSpot是一个由(Cheng et al. 2024)提出的真实定位评估数据集,包含了来自三个平台(即移动端、桌面端和网页端)的600多张GUI截图。每张截图包含多个命令指令及其对应的可操作元素,这些元素包括文本和图标/控件类型的元素。

基线方法

按照(Cheng et al. 2024)中的设置,我们将我们的方法与多个流行的基础MLLMs(多模态大型语言模型)进行了对比:

  • MiniGPT-v2
  • Qwen-VLChat
  • 最新的 GPT-4V
  • MiniCPMV2.5

同时,我们还将我们的方法与CogAgent和SeeClick进行了对比,这两者是目前最先进的GUI元素定位模型,经过大量GUI特定任务的监督微调(SFT)。为了公平对比,我们直接使用SeeClick中的评估设置,并与其论文中报告的结果进行比较。MiniCPMV2.5和我们方法的prompt模板如图4所示。

结果

如表2所示,基础MLLMs在GUI元素定位任务上的表现普遍较差。其中,MiniGPT-v2和Qwen-VLChat在所有平台上的平均准确率低于6%,而GPT-4V仅达到16.2%。MiniCPMV2.5的表现略好一些,达到了36.0%,这可能是由于其与OCR相关的预训练所致。

经过GUI特定任务微调的模型(如CogAgent和SeeClick)表现优于上述基础模型。

然而,我们的方法在未经过额外微调的情况下(基于MiniCPMV2.5),达到了54.8%的平均准确率,显著超过了GUI特定微调模型。我们的方法在文本定位方面表现尤为突出,其准确率分别为移动端88.3%、桌面端82.5%和网页端70.9%。

如图4所示的案例表明,与直接使用查询文本相比,通过从生成的元素描述中自适应选择文本token,可以更有效地完成GUI定位任务。


4.3 任务3:GUI智能体评估

我们进一步在GUI智能体基准数据集上评估了我们的方法。

Mind2Web数据集

Mind2Web数据集用于评估在网页环境中的GUI智能体,主要基于文本型HTML内容。数据集中每个样本通常包含一个开放式、高层次的目标指令,以及一条人类的操作轨迹序列,包括点击、选择和输入操作。虽然发布的数据集还包含与每个样本对应的GUI截图,我们遵循的设置,仅使用GUI图像进行评估。

由于本研究主要聚焦于GUI定位任务,我们在Element accuracy(元素准确率)指标上评估了对比方法。对于基于视觉的方法,若预测的坐标落在目标元素的bounding box内,则该预测被视为正确。

基线方法

我们将我们的方法与两种基于视觉的GUI智能体进行了比较:

  • Qwen-VL
  • SeeClick

这两个方法都在Mind2Web训练集上进行了微调。此外,我们还包括了基础MLLM MiniCPMV2.5 作为对比。我们方法的prompt模板如图5所示。

由于篇幅限制,MiniCPMV2.5的prompt(与我们的方法类似)已包含在补充材料中。

结果

表3的结果表明,提出的基于注意力驱动的定位方法在所有设置中都提升了MiniCPMV2.5的元素准确率,达到了与最佳微调模型相当的平均准确率。

图5展示了一个案例,表明我们的方法在每一步都能精确定位目标并成功实现整体目标。


4.4 消融研究

我们研究了TAG方法中每个组件的影响。

如表4所示,添加基于注意力驱动的定位显著提升了性能,例如移动端文本定位的准确率从40.3%提升至71.8%。

引入自适应文本token选择进一步改善了性能,特别是在移动端文本(86.4%)和图标/控件(28.4%)的定位任务中表现突出。

完整模型结合了自注意力选择,在所有指标上均表现最佳,在移动端文本(88.3%)和桌面端图标/控件(28.6%)的准确率上取得了显著提升。


4.5 更多讨论

Top K 的影响

在我们的方法中,K用于过滤自注意力权重,仅保留排名靠前的注意力头,用于文本到图像的映射。

图6表明,降低K值最初会提升性能,在两个宽高比设置下,K = 10时表现最佳。

然而,极端的K值(如K = 1或K = 1024,即不进行过滤)会导致精度下降。这表明过滤掉噪声注意力头,同时保留足够的文本到图像映射信息,对性能提升是有益的。

基于这一结果,我们在所有实验中均将K设置为10。

阈值δ的影响

阈值δ用于确定最终定位预测中的高亮区域。

图7显示,当阈值δ ≤ 0.3时,模型的性能表现不佳,这是因为包含了过多关注度较低的区域。随着δ值的增加,模型性能在δ = 0.5时达到峰值,但当δ进一步增大时性能开始下降。因此,我们在所有数据集上均将δ设置为0.5。

泛化能力

我们将注意力驱动的定位方法应用于另一个基础MLLM模型------Qwen-VLChat(Bai et al. 2023),以验证其泛化能力。尽管Qwen-VL-Chat最初在GUI定位任务中的表现较差,但通过应用我们的方法,其在Mind2Web-OCG数据集的4:3宽高比下准确率从2.7%提高到了10.2%。这一结果表明,我们提出的机制具有广泛的适用性,可以推广到不同的基础MLLM模型上。


五、结论

本文提出了一种免调优的注意力驱动定位方法(TAG) ,该方法利用预训练多模态大模型(MLLMs)中内置的注意力机制,在无需额外微调的情况下即可精准定位GUI元素。将TAG应用于MiniCPM-Llama3-V 2.5模型后,我们证明了通过充分利用模型内置能力,可以在性能上有效匹敌甚至超越传统方法,尤其是在文本定位任务上表现尤为突出。这表明,MLLMs可以通过更高效的方式被使用,从而减少资源密集型微调的需求,同时避免了过拟合的风险。TAG方法有潜力应用于各种模型和多模态场景,为提升AI在人机界面交互中的适应性提供了一种有前景的解决方案。

局限性

TAG方法的表现严重依赖所使用的预训练模型的能力和质量。如果这些模型本身存在固有偏差,或训练数据的多样性不足,TAG的效果可能会受到限制,进而影响其准确性和泛化能力。

为缓解这一问题,可以扩展用于MLLMs预训练的数据集,这是一种具有前景的改进方向,但超出了本文的研究范围。我们将其视为未来研究的重点。


6 补充材料

6.1 主文稿图1中查询的完整输出

由于篇幅限制,图1仅展示了模型输出的部分结果。本补充材料的图8中呈现了完整输出内容。

具体来说,我们进行了一个实验,用于比较MiniCPMV2.5与我们的TAG方法在光学字符定位(OCR定位)能力上的表现。

首先,我们使用MiniCPMV2.5对图像执行OCR操作,提示内容为:"Please do OCR on this image." 然后,将生成的文本作为查询输入,同时测试两种模型的文本定位能力。对于MiniCPMV2.5,我们使用的提示为:

"What is the bounding box of 'query text' in the image? The bounding box output format is: <box>xmin ymin xmax ymax</box>. Please directly output the bounding box."

对于我们的TAG方法,我们使用了类似的提示:

"What is the bounding box of 'query text'?"

我们选择了六个示例,每个示例都标记为不同颜色。实验结果表明,虽然MiniCPMV2.5能够理解文本内容,但在图像中准确定位查询文本时表现不佳。而我们的TAG方法能够精准地定位文本,显著优于MiniCPMV2.5。


6.2 MiniCPMV2.5的定位任务应用

MiniCPMV2.5在OCR相关数据集上进行了预训练,根据作者的反馈,它支持三种位置格式:

我们的实验观察表明,MiniCPMV2.5倾向于++以框格式++输出位置信息。为确保解析一致性,我们在提示中明确要求使用框格式,从而引导MiniCPMV2.5生成稳定且易于理解的位置描述。

在MiniCPMV2.5的预训练过程中,位置坐标被重新缩放到**[0, 1000]**范围内。为了将生成的坐标映射回输入图像空间,我们采用以下转换公式:

其中,W 和 H 分别为输入图像的宽和高。对于最终的定位预测,我们计算转换后框的中心位置。如主文稿表1所示,此方法使MiniCPMV2.5在定位任务中取得了较好的准确率。


6.3 OCG数据集

OCG(Optical Character Grounding)是从Mind2Web测试集中派生的光学字符定位数据集,旨在验证所提出的注意力驱动定位方法在文本到图像映射任务中的能力。

该数据集包含104张网页页面截图,每张截图都附带通过Azure Vision API生成的OCR数据(包括文本及其对应的边界框)。

++为适应不同的宽高比,图像从原始截图中裁剪而来,同时保留裁剪区域内的所有文本和边界框++。因此,在不同宽高比设置下需要定位的文本元素数量会有所不同。

数据集的详细统计信息如表5所示,显示了各种宽高比设置(宽:高)下的OCG样本数量:


6.4 MiniCPMV2.5在Mind2Web数据集上的提示模板

MiniCPMV2.5使用的提示模板如图9所示。为了确保公平比较,该模板与TAG方法中使用的模板几乎完全相同。


6.5 Mind2Web数据集的操作历史

Mind2Web数据集包含多个样本,每个样本的总体目标通常需要通过多步与GUI的交互来完成。为了提供上下文信息,说明当前状态是如何被达成的,通常会包含操作历史。

按照SeeClick 中采用的方法,我们++在提示中加入了最近的四步真实操作记录++,以确保公平比较。以主文稿图5中展示的案例为例,每一步使用的操作历史如图10所示。


6.6 TAG的推理效率分析

表6比较了TAG与MiniCPMV2.5在screenspot-desktop测试集上的平均计算时间。

所用提示如主文稿图4中所示。

尽管TAG通过注意力选择和向量乘积操作增加了一些额外的计算量,但它避免了输出边界框,从而减少了推理时的令牌长度(token length),可能降低了整体时间成本。

结果是在NVIDIA RTX 4090 GPU上测得的。


6.7 在VisualWebBench上的评估

我们进一步在另一个基准测试集VisualWebBench的元素定位任务上评估了我们的方法。此数据集中的图像标注了七种可能元素的边界框和标签,允许多模态大模型(MLLM)执行多选(MC)预测。

对于MiniCPMV2.5,我们分别评估了多选定位和直接边界框预测。在表7中,TAG在所有模型中表现最佳。