【论文阅读】Qwen2.5-VL Technical Report

论文链接：https://arxiv.org/pdf/2502.13923

Code： https://github.com/QwenLM/Qwen3-VL

来源： arXiv

摘要：

技术进步：Qwen2.5-VL在基础能力（如视觉识别、目标定位、文档解析）和功能创新方面都有显著提升。

理解和交互提升：模型在理解和与世界互动方面取得重大突破，尤以在以下方面表现突出：

改进的视觉识别能力
精确的目标定位（使用边界框或点）
强大的文档结构化数据提取（如发票、表格、图表）
长视频理解能力

处理复杂输入的技术：

引入动态分辨率处理，可以原生处理不同尺寸的图像和长达数小时的视频，不需传统的归一化技术。
使用绝对时间编码，实现秒级事件定位，增强视频中的时间感知。

架构创新 ：使用从零训练的动态分辨率Vision Transformer (ViT) ，结合Window Attention机制，有效减少计算量同时保持高分辨率。

多场景适应性：不仅擅长静态图片和文档理解，还能作为交互式视觉代理（如操作电脑和手机），进行推理、工具使用和任务执行。

规模多样性：

提供三种不同大小模型（如72B、7B、3B参数），适应从边缘AI到高性能计算的不同需求。
顶级的72B模型能媲美GPT-4o、Claude 3.5 Sonnet，特别擅长文档和图表理解。
小模型（7B、3B）在资源有限的情况下表现优异。

语言能力：保持强大的语言处理能力，延续了Qwen2.5系列的语言基础水平。

1. 引言

LVLMs的意义和现状：大规模的视觉-语言模型（LVLMs）被视为人工智能的重大突破，它们通过结合视觉感知和自然语言处理，实现了多模态（多感官信息）理解与交互。这类模型正在根本性地改变机器解析复杂信息的方式，适用于多种领域。

当前模型的局限：虽然LVLMs已取得显著进步，它们在任务表现上虽然"够用"，但尚未达到极致的性能。基础视觉任务（如细粒度视觉感知）仍然是薄弱环节。

Qwen2.5-VL的创新目标：新版的Qwen2.5-VL旨在强化细粒度感知能力，夯实基础，使模型更具"代理"能力（即模拟智能体的行为），应用于实际复杂环境中。它将多模态推理作为高层目标，通过利用最新的Qwen2.5大型模型和多模态问答（QA）数据加强这一能力。

技术创新点：介绍了推动LVLMs最新发展的几个技术突破：

架构创新：不断优化模型结构，例如引入窗口注意力（window attention）提高推理效率。
细粒度感知：推行更精准的视觉理解，涉及更复杂的细节识别。
时间和视频处理：通过动态FPS采样和绝对时间编码，支持对长视频的理解，包括小时级视频内容的细粒度事件检测。
数据规模扩大：从1.2万亿到4.1万亿的预训练数据，使模型基础更为坚实。

模型的核心特性：

文档理解：升级到全面的文档解析能力，能处理多场景、多语种、多类型的文档，包括手写、表格、图表等。
对象定位：提供更精确的对象检测、指点和计数，支持复杂空间关系推理。
长视频理解：能理解持续数小时的视频，并快速提取事件片段。
智能代理功能：增强在计算机和移动设备上的推理和决策能力，支持实际应用。

2. 方法

2.1 模型架构

大型语言模型（Large Language Model, LLM）：这是模型的核心基础部分。Qwen2.5-VL系列采用预训练好的Qwen2.5语言模型，并对其进行调整。为了更好地进行多模态理解，特别修改了传统的1D旋转位置编码（RoPE）为多模态专用的"多模态旋转位置编码（Multimodal Rotary Position Embedding，MM RoPE）"，并对时间信息进行了对齐（"Aligned to Absolute Time"），以增强模型对时间和空间的理解能力。
视觉编码器（Vision Encoder）：使用经过重新设计的Vision Transformer（ViT）架构。为了支持原生输入分辨率并加快计算速度，加入了"窗口注意力"（windowed attention），仅在少数几层使用全局自注意力，其他层采用局部窗口机制，处理效率更高。输入图片在送入模型前会被调整至高度和宽度为28的倍数。图片被切分成大小为14×14的patch，模型通过处理这些patch生成图像特征。还采用了2D RoPE作为位置编码，以捕获空间关系，并扩展到3D块分割以支持视频输入（两个连续帧合一，显著减少token数）。整个架构还借鉴了大语言模型的设计原则，比如采用RMSNorm归一化和SwiGLU激活函数，以提升效率和兼容性。
MLP基的视觉-语言融合器（MLP-based Vision-Language Merger）：为了减少长序列的计算负担，对图像特征序列进行压缩处理。具体做法是将相邻的4个patch特征组合在一起，通过多层感知机（MLP）投影到与文本嵌入匹配的维度。这样既降低了计算成本，也使得序列长度可动态调节，更适应不同配置。

2.1.1 快速高效的视觉编码器：

应对高计算复杂度的问题：输入图片原生分辨率下，存在"quadratic"复杂度问题。为了解决这个问题，在大部分ViT层中使用"窗口注意力"，每个窗口最大为112×112（相当于8×8 patches），仅在少数层使用全局自注意力。这种设计保证了计算量随patch数线性增长，而非平方。

空间位置编码：采用了"2D旋转位置编码（2D RoPE）"，很好地捕捉了空间关系。

视频输入处理：将连续帧捆绑成3D块（两帧组合），减少了输入tokens数量，提升处理效率。

模型训练：从头训练ViT，包括多个阶段（如CLIP预训练、视觉-语言匹配、端到端微调）。训练中采用"动态采样"，即以保持输入比例的随机样本，从而增强模型对不同尺寸输入的适应性。

2.1.2 原生动态分辨率和帧率

空间维度（图像处理）：

传统方法通常会将输入图像归一化处理，例如调整到固定大小或标准比例。
Qwen2.5-VL的创新在于：它直接使用输入图像的实际尺寸，将其转换为对应长度的"tokens序列"。也就是说，不对图像尺寸进行归一化，而是保留原始尺寸信息。
这样做的好处是：模型可以"自然地"学到尺度（尺度指物体在不同分辨率下的大小差异），提高对不同分辨率图像的处理能力。这增强了模型的泛化能力和细节感知能力。

视频维度（时间处理）：

以往的视频模型常用文本时间戳或增加额外的预测头来实现时间上的定位。
Qwen2.5-VL引入了"动态帧率（FPS）训练"和"绝对时间编码"：
- 动态帧率训练：模型可以适应不同的帧率（FPS），更好地理解视频中的运动和时间变化。
- 绝对时间编码（absolute time encoding） ：
  - 通过将时间ID（ID表示序列中的位置或时间点）与实际的时间间隔相匹配，模型可以理解事件发生的真实时间点，而不是仅仅基于帧数的相对时间。
  - 这种方法无需额外的计算资源，就能让模型掌握事件发生的"节奏"。

2.1.3 多模态旋转位置编码

背景：

位置编码（Positional Embedding）是模型理解序列顺序的关键技术------它告诉模型某个信息在序列中的位置。
Qwen2-VL原有的方法（MRoPE）将位置编码细分为三部分：时间（temporal） 、高度（height）和宽度（width）。

在文本中的应用：

三个部分的ID都是相同的，使得在处理纯文本时，MRoPE表现与传统的单维RoPE类似。

在图像和视频中的应用：

静态图像 ：
- 所有视觉token的时间ID保持不变（因为静态图没有时间序列）。
- **空间ID（高度和宽度）**根据每个token在图像中的空间位置分配（比如像素位置）。
视频：
- 视频被视为一系列帧，每帧都是一个图像。
- 每新的一帧，时间ID会递增，即每个帧有唯一的时间ID。
- 图像内的空间ID保持不变，同静态图一样。

核心问题和改进：

原有的MRoPE（用于视频）将时间ID与帧数绑定，并未考虑"内容变化的速度"或"事件的绝对时间"。
这意味着模型只知道"第几帧"，但不了解内容变化的实际时间跨度（比如两帧之间可能相隔不同的真实时间）。
引入绝对时间对齐 ：
- 通过让时间（Temporal）部分的ID与实际的事件时间（绝对时间）对齐。
- 利用时间ID之间的间隔（ID间距）关系，让模型理解事件发生的真实时间点。
- 这样，无论视频的帧率（FPS）如何变化，模型都可以学习到一致的时间关系，同时理解事件的节奏。

2.2 预训练

2.2.1 预训练数据

预训练数据规模的扩大：相较于Qwen2-VL，Qwen2.5-VL的预训练数据量从1.2万亿个tokens增加到大约4万亿个tokens。这一增长极大地丰富了模型的学习资源，有助于提升模型的全面能力。

数据来源和构建方法：预训练数据通过多种途径构建，包括对原始网页数据进行清洗、数据合成等，涵盖多模态内容，如图片描述（caption）、图片与文本交叉数据、OCR识别数据（光学字符识别）、视觉知识（如名人、地标、动植物识别）、多模学术问答、定位信息、文档解析、视频描述、视频定位以及代理交互数据。

交叉图文数据（Interleaved Image-Text Data）：这种数据在多模态学习中至关重要。其主要作用有三个：

支持视觉与文字的同步学习（在上下文中学习）
在没有图像时依然保持较强的文本理解能力
融合丰富的通用信息，支持多样化任务。

但这类数据中存在部分噪声和低质量配对，为此，团队开发了数据打分和筛选流程，确保只使用高质量、相关性强的图文数据。

数据质量控制（打分和筛选）：

标准数据清洗：删除低质量内容；
四阶段评分体系：依据图文相关性、信息互补性（确保图片与文字提供补充信息）以及信息密度的平衡（避免信息过载或不足）来评分，从而筛选出适合训练的高质量数据。

绝对位置坐标数据集：

采用基于图像实际尺寸的坐标表示物体的边界框和点，从而更精确地反映物体的真实空间关系；
这有助于模型在对象检测和定位任务中表现出更好的能力；
数据合成方面，结合了公开数据和专有数据，使用方法如复制粘贴增强及与先进模型（如Grounding DINO、SAM）的结合，产生更丰富多样的训练数据。

开放词汇检测能力的提升：

扩展训练数据，涵盖超过10,000个对象类别，以增强模型在多样化场景中的识别能力；
为极端检测场景合成不存在的类别，制造多实例的复杂图片。

点识别（Point-based Grounding）数据集的构建：

包括公开和合成的点检测与计数数据；
利用自动化流程生成精确的点定位数据，用于提升模型在空间理解与对象定位方面的性能。

全能文档解析数据：传统的文档内容解析通常依赖多个专用模型，分别处理布局分析、文本提取、图表识别和插图处理。而Qwen2.5-VL则采用一种创新方法，将多样化的文档元素（如表格、图表、公式、图片、乐谱、化学式）统一格式化为HTML。这些HTML格式化的内容不仅包含布局信息，还标记了元素的具体位置（如坐标），实现了布局、文本、图表和插图的标准化和统一表示，从而支持多模态内容的无缝整合，提高理解和转换效率。

光学字符识别数据：收集多源数据（包括合成的高质量文本图像、开源数据和内部采集数据）以增强模型的OCR能力。合成数据通过视觉文本生成引擎创建，支持多种语言（如法语、德语、意大利语、西班牙语、阿拉伯语、俄语、日语、韩语、越南语），确保模型在多语言环境中的鲁棒性。还利用图表合成（利用matplotlib、seaborn、plotly等库）生成多类别图表，处理6百万个真实场景中的表格示例，并过滤低质量或重叠数据，提高识别准确性。

视频数据：为提高多帧率（FPS）视频理解的稳健性，训练中动态采样不同的FPS，确保模型能适应多样的视频输入。对于长于半小时的视频，会合成多帧字幕，生成对应的时间戳（秒级或hmsf格式），让模型能准确理解视频中的时间信息和事件。

智能代理数据：加强模型的感知和决策能力，包括采集不同平台（手机、网页、桌面）的屏幕截图，并利用合成引擎生成截图的描述和UI元素的定位标签，帮助模型理解界面布局和功能。为训练模型的决策行为，整理跨平台的操作轨迹，将这些操作统一为函数调用格式，并经过人工和模型标注的推理过程验证。 annotators（标注员）会在截图上标出关键操作，提供操作背后的意图说明，模型通过筛选和学习这些推理内容，变得更稳健、避免过拟合，能更好应对实际应用中的复杂场景。

2.2.2 训练策略

模型初始化：

视觉编码器（Vision Encoder）采用从头训练（从零开始）的方法，使用DataComp和内部数据集作为预训练基础，初始化为Vision Transformer（ViT）。
语言模型（LLM）部分则直接使用预训练的Qwen2.5大型语言模型的权重作为起点。

三阶段训练流程：

第一阶段 ：
- 只训练视觉编码器（ViT），目的在于让视觉特征提取能力与文本模型有效对齐，为多模态理解奠定基础。
- 主要使用的数据包括：图像标题、视觉知识和OCR数据。这些数据帮助模型学会提取有意义的视觉表征，从而能够与文本信息配合使用。
第二阶段 ：
- 所有模型参数全部解冻（unfrozen），一同训练。
- 使用更丰富多样的多模态数据，包括：交错式图文数据、多任务学习数据（如视觉问答、VQA）、多模数学、代理任务、视频理解以及纯文本数据。
- 这个阶段强化模型在视觉和语言之间建立更深层次联系的能力，使其能处理更复杂的任务。
第三阶段 ：
- 进一步扩展模型的推理能力，特别是在长序列和视频任务上。
- 融入更长的视频和代理任务数据，同时增大输入序列长度（从8,192提升到32,768），使模型能处理更复杂、更长的上下文，增强长距离依赖和复杂推理能力。

优化计算效率的策略：

不同尺寸的图像和文本长度会带来计算负载不平衡的问题，尤其在大规模训练中显著。
由于LLM参数众多，导致计算成本高昂，因此采用：
使用窗口注意力（window attention）减少视觉编码器的计算负担。
动态打包（dynamically pack）数据样本，根据其对应的输入序列长度，将数据合理分配到GPU上，确保每个GPU的计算负载一致。
在前两个阶段，序列长度均设定为8,192；在第三阶段，为了适应更长序列的训练，在保证效率的前提下，将序列长度增至32,768，以支持模型处理更长的上下文。

2.3 后训练

双阶段优化框架：后训练采用了"层次式的优化策略"，由两部分组成：

监督微调（Supervised Fine-Tuning, SFT）：通过有目标地调整模型参数，使其更好地完成特定任务或应对下游应用。
直接偏好优化（Direct Preference Optimization, DPO）：引入人类偏好信息，使模型的行为更符合人类预期。

这两步共同作用，一方面改善模型的表示能力（参数效率的领域适应），另一方面强化模型的行为表现（行为规范化和偏好对齐）.

监督微调（SFT）详细过程：

目标是缩小预训练模型的能力与实际任务需求之间的差距。
为此，采用了ChatML格式（Openai, 2024）作为数据结构。这一格式的调整：
支持多模态交互中的明确角色分配（即对话中的不同角色标签）；
将视觉嵌入结构化地融合到文本指令中；
维护跨模态的时序关系（确保视觉和文本信息在空间和时间上的对应关系）.

2.3.1 指令数据（Instruction Data）：

微调使用了一个经过精心挑选的、约200万条数据的高质量数据集。
这些数据中，50%为纯文本，50%为多模态（如图文或视频文本），以增强模型处理复杂输入的能力。
数据集主要包含中英文内容，也有一些多语种，保证多样性。
数据涵盖了不同场景：简单对话、多轮对话、单图、多图场景，其目的是模拟真实的对话和互动场景。
数据来源包括开源资源、购买的专用数据集和网络查询，确保丰富性和代表性。
还设计了多种任务子集，如视觉问答、图像描述、数学题、代码编程、安全问题、文档识别、视频理解、智能代理任务等，以提升模型在特定领域的表现.

2.3.2 数据过滤流程

数据的质量对视觉-语言模型（VLM）的性能具有关键影响。开源和合成数据集通常具有较大差异性，可能包含噪声、冗余或低质量的样本。因此，进行严格的数据清洗和过滤非常必要，以确保模型学习到高质量、相关且有效的数据。低质量的数据会导致模型预训练的表示与后续任务的对齐效果不佳，影响模型应对复杂多模态任务的能力。因此，保证数据的高质量是实现稳健和可靠模型性能的基础。

为了解决这些问题，本文设计了一个两阶段的数据过滤流程，系统地提升监督微调（SFT）数据集的质量。具体包括以下两个阶段：

第一阶段：领域特异性分类

采用Qwen2-VL-Instag------由Qwen2-VL-72B模型衍生的专用分类模型------对问答（QA）对进行层级划分。
该模型将QA对归类到八个主要领域（如编码、规划等），每个主要领域又细分为30个子类别。例如，编码领域可以细分为代码调试、代码生成、代码翻译和代码理解等子类别。
这种层级结构帮助实现面向领域和子领域的过滤策略，使数据清洗更有针对性，提升数据的相关性和质量，从而增强微调数据集的效果。

第二阶段：领域定制过滤

第二阶段结合规则规则和模型评估两方面手段，进一步提升数据质量。考虑到不同领域（如文档处理、OCR、视觉定位等）有不同的特点，因此需要定制化的过滤策略。

基于规则的过滤：利用预定义的启发式规则删除低质量或存在问题的条目。例如，删除重复模式、截断、不规范格式的响应；排除无关或可能引发有害输出的问答。这些措施确保数据符合任务需求和伦理标准。
基于模型的过滤：利用通过Qwen2.5-VL系列训练的奖励模型，评估多模态问答对的多个维度。模型会检测问答的复杂度是否适宜、语义是否相关，答案是否正确、完整、清晰、对问题的帮助性等。在视觉定位任务中，特别关注是否正确理解和利用了视觉信息。只有经过多维评价并符合质量标准的样本才能进入微调阶段。

2.3.3 拒绝采样以增强推理能力

目的：在已有的系统性数据过滤（过滤低质量样本、确保数据多样性和相关性）基础上，采用拒绝采样方法，进一步提升模型的复杂推理能力。这对于需要多步推理的任务（如数学问题、代码生成、特定领域的视觉问答）特别重要。

背景：研究表明，融入"思维链"（Chain-of-Thought, CoT）推理能显著改善模型的推理性能，近期的实验也验证了这一点（DeepSeek-AI）。因此，数据中包含的高质量、多步骤推理示例对模型能力提升尤为关键。

流程：

以包含"真实答案"（ground truth）注释的数据集为基础，挑选适合多步推理的任务（数学、代码、VQA等）。
利用中间版本的Qwen2.5-VL模型，评估模型生成的回答。
筛选原则：只保留模型回答与期望答案一致的样本，确保数据集中的示例都具备高质量和高准确性。
附加的过滤措施 ：
- 排除可能影响内容质量的响应，比如：
- 代码切换（多个编程语言交替）
- 回复过长或重复
- 确保推理过程中的连贯性和清晰度，这是贯穿多步推理的核心。

对多模态的挑战：

多模态（视觉和文本）结合中，推理步骤容易出现"视觉信息忽略"或"误解"的问题。
采用规则和模型策略验证每一步推理的中间结果，确保视觉和文本信息融合准确。
尽管努力，但模态（视觉与文本）对齐仍是未来研究的关键问题。

效果与意义：

通过不断迭代筛选高质量示例，模型可以学习到更精准、连贯的推理能力。
这种数据增强方案帮助模型处理更复杂的任务，为未来模型的推理性能打下基础。

2.3.4 训练流程（Brief）

训练包含两个阶段：

Supervised Fine-Tuning（SFT）：在多模态数据（图片、视频、文本）上进行，保持ViT参数固定。目的在于微调模型，提高其跨模态推理能力和任务适应度。
直接偏好优化（DPO）：利用偏好数据（人类偏好标注）进一步对模型进行优化，使输出更符合用户需求。同样保持ViT不变，确保训练效率。

3. 实验

3.1 与SOTA模型的比较

在大学水平的问题上，Qwen2.5-VL-72B在MMMU的测试中获得70.2分 ，在MMMU-Pro中获得51.1分 ，这两个成绩都优于之前的开源SOTA模型，并且与GPT-4o的表现相当。
在数学相关任务方面，Qwen2.5-VL-72B在MathVista中得分74.8 ，优于之前的开源SOTA（72.3）；在MATH-Vision中得分38.1 ，而MathVerse得分57.6，表现均具有竞争力。
在通用视觉问答（VQA）方面，Qwen2.5-VL-72B在多个基准测试中表现优异，比如在MMBench-EN中得分88.6 ，略高于之前的最佳成绩（88.3）；在MuirBench中获得70.7分 ，在BLINK中获得64.4分 。它在多语种能力评估MTVQA中得分31.7 ，显示出强大的多语种文本识别能力。用户满意度方面，在MMVet和MM-MT-Bench中的得分分别为76.2和7.6，都体现了其自然对话和用户体验的优越。

3.2 纯文本任务表现

通过几个代表性基准，对模型在一般任务、数学和科学任务、编码任务以及对齐任务上的能力进行了评估。结果显示，Qwen2.5-VL不仅在多模态任务中表现出色（达到SOTA水平），在纯文本任务中也表现优异，体现了其多样性和稳定性，证明其具有广泛的适应能力和强大的性能。

3.3 性能表现

3.3.1 一般视觉问答（VQA）性能：

通过在多个不同的数据集上进行测试，验证了Qwen2.5-VL在广泛场景中的优越性能。例如，在MBench系列、MMStar、MME、MuirBench、BLINK、CRPE、HallBench、MTVQA、MMVet等数据集上，模型表现出色。
在详细场景理解和推理方面，Qwen2.5-VL-72B在MMBench-EN-V1.1上达到了88.4%的准确率，超过了之前的最先进模型如InternVL2.5和Claude-3.5 Sonnet-0620。
在高分辨率实际场景（如MME-RealWorld）中也达到了63.2分的最高性能 。此外，在多图像理解任务（MuirBench）上取得70.7的领先分数。
即使是参数较少的版本Qwen2.5-VL-7B和3B，也表现出很强的竞争力（如在MMStar数据集上的分类准确率分别为63.9%和55.9%），说明模型架构具有良好的可扩展性。

3.3.2 文档理解和OCR能力：

在多个OCR及文档理解基准（如AI2D、TextVQA、DocVQA、InfoVQA、ChartQA、CharXiv、SEED-Bench-2-Plus、OCRBench、OmniDocBench、VCR等）上，Qwen2.5-VL模型展现出领先的性能。
在多场景、多语种以及包含手写、表格、图表、化学公式和数学表达式等多样内容的OCR元素解析任务中，Qwen2.5-VL-72B刷新了纪录，得益于优质的训练数据和强大的语言模型能力。
对于包含场景文字、图表、图示和文档等理解任务，模型表现优异，明显优于其它竞争模型（如InternVL2.5-78B）。
在OCR理解的综合任务中（如OCRBench_v2等），模型性能亦远超最优竞争者，例如在中英文轨道上分别超过Gemini 1.5-Pro 9.6%和20.6%。

3.3.3 空间理解：

这一部分强调了空间关系理解在AI模型中的核心作用，特别是在大规模视觉-语言模型（LVLM）中的表现。具体内容包括：

视觉定位（Visual Grounding）：指模型根据自然语言查询或描述，将具体对象、区域或元素在图像中准确定位和识别的能力。这超越了传统的目标检测，因为它不仅找到物体，还建立了视觉内容与语言描述之间的语义关系，促进更细腻和语境敏感的视觉推理。
评估方法：利用多个基准测试（如指代表达理解）、野外目标检测、自制点定位（point grounding）以及 CountBench等，评估Qwen2.5-VL在空间理解上的能力。
性能优势：Qwen2.5-VL在多个任务中表现出色，包括边界框定位（box-grounding）、点定位（point-grounding）和计数（counting）。装备了边界框和点定位功能的Qwen2.5-VL能理解、定位并推理图像中的细节。其在开放词汇目标检测任务中达到43.1 mAP（平均精确度），超越大多数同行模型，缩小了通用模型与专业模型之间的差距。
点定位能力：允许模型细致地定位特定对象的细节，比以前用边界框表现的方法更精确。
计数能力：在CountBench测试中，Qwen2.5-VL-72B利用"检测后计数"策略，达到93.6的领先准确率。

3.3.4 视频理解与定位

该部分介绍模型在视频理解和时间定位方面的表现：

任务范围：涵盖从几秒到数小时的多种视频任务，包括长视频理解、时序事件定位、密集字幕描述等。
评测基准：在众多视频任务基准（如LVBench、MLVU、Charades-STA等）中与顶级模型（如GPT-4o）进行比较。Qwen2.5-VL-72B在这些任务中表现优异，特别是在评估长视频理解能力的LVBench和MLVU上，显著领先。
技术改进：采用了同步的 MRoPE机制，增强模型在时间感知、事件与时间戳的关联、丰富的视频字幕描述等方面的能力。
突出表现：在Charades-STA（准确定位事件或活动的时间段）任务中，Qwen2.5-VL-72B获得了50.9的mIoU（平均交并比），远超GPT-4o。
处理规模：在每个视频中分析最多768帧，总视频Token不超过24,576，保证了效率与精度的平衡。

3.3.5Agent能力

UI元素的定位能力：通过ScreenSpot和ScreenSpot Pro这两个工具，对模型在界面元素定位（grounding）方面进行评估。Offline评估在Android控制平台进行，Online评估则在多个平台如AndroidWorld、MobileMiniWob++ 和 OSWorld上展开。
模型性能对比：将Qwen2.5-VL-72B与其他知名模型（如GPT-4o、Gemini 2.0、Claude、Aguvis-72B、Qwen2-VL-72B）进行比较，特别是在界面元素定位任务中的表现（见表9）。Qwen2.5-VL-72B在GUI基准测试中取得了优异成绩，例如在ScreenSpot中达到87.1%的准确率，领先于几乎所有对手，并在ScreenSpot Pro上创造了新的最高纪录（43.6%）。
实际应用能力：通过应用"Set-of-Mark（SoM）"技术（为输入添加标记），模型能在没有额外辅助标记的情况下，在线环境中（如AndroidWorld和MobileMiniWob++）优于其他模型，表现出在真实动态环境中作为智能代理的潜力。

4. 结论

Qwen2.5-VL的代理能力得益于其在视觉识别、对象定位、文档解析以及长视频理解方面的优势，加之创新技术（如动态分辨率和绝对时间编码），使得它能应对多样化的复杂任务。这让它在各种实际应用场景中（从边缘AI到高性能计算）都表现出强大的联动与交互能力，推动更智能、更具互动性的系统发展。