论文阅读：LLaVA-OneVision: Easy Visual Task Transfer

公开时间：2024年9月14日

项目地址：https://llava-vl.github.io/blog/llava-onevision

LLaVA-OneVision是一个开放的大型多模态模型（LMMs），它是通过整合在LLaVA-NeXT博客系列中的数据、模型和可视化表示的见解而开发的。实验结果表明，LLaVA-OneVision是第一个能够在三个重要的计算机视觉场景：单图像、多图像和视频场景的单一模型。重要的是，LLaVAOneVision的设计允许跨不同的模式/场景进行强大的迁移学习，从而产生新的新兴能力。特别是，通过从图像到视频的任务转移，展示了强大的视频理解和跨场景能力。
论文的核心是分享了一个OneVision的架构设计，以统一对单图、多图及视频任务的训练框架（token编码规则），将单图训练的能力迁移到多图与视频中。同时分享了一种动态分辨率设计规则，以提供更好的视觉表示（兼容图像视频）；最后介绍了训练数据的收集步骤与训练步骤，其中重点表明高质量知识是lmm中最为重要的环境。

1 Introduction

利用大型多模态模型（LMM）[67]构建通用助手是人工智能的核心愿望。LLaVA-one视觉是一个开放的模型，继续推进构建大型视觉和语言助手（LLaVA）[83]的研究方向，期待可以遵循不同的指令，在野外完成各种计算机视觉任务。作为一种成本效益高的配置，它通常是通过使用一个简单的连接模块将视觉编码器与大型语言模型（LLM）连接起来来开发的。

第一个LLaVA模型[83]展示了令人印象深刻的多模态聊天能力，有时会在以前未见过的图像和指令上表现出类似于GPT-4V的行为。LLaVA-1.5 [81]通过合并更多与学术相关的教学数据，显著地扩展和提高了能力，通过数据高效的配置在几十个基准上实现了SoTA性能。LLaVA-NeXT [82]继承了这个特性，通过三个关键技术进一步推动了性能边界：用于处理高分辨率图像的AnyRes，扩展高质量的指令数据，以及利用当时可用的最佳开放LLM。

LLaVA-NeXT提供了一个可扩展和可扩展的原型，这促进了几个并行的探索，在LLaVA-NeXT博客系列[82,169,65,64,68]中报道：

Video blog[169]显示，仅接受图像训练的LLaVA-NeXT模型在具有zero-shot视频任务上惊人地强大，这是因为AnyRes的设计可以将任何视觉信号转换为一个图像序列。
Stronger blog[65]展示了LLM模型对这个成本效益策略的LLM模型的扩展。通过简单地扩展LLM，它在选定的基准测试上实现了可与GPT-4V相媲美的性能。
Ablation blog[64]总结了我们除了视觉教学数据本身外的经验探索，包括架构的选择（LLM和视觉编码器的缩放），视觉表示（分辨率&token），以及追求数据缩放成功的训练策略（可训练模块和高质量数据）。
Interleave blog[68]描述了在新场景中扩展和提高能力的策略，包括多图像、多帧（视频）和多视图（3D），同时保持单图像的性能。

这些探索是在固定的计算预算内进行的，旨在在项目导航过程中提供有用的见解，而不是推动性能限制。在此过程中，我们还积累和管理了大量从1月到6月的高质量数据集。通过巩固这些见解并在新积累的更大数据集上执行"yolo run"实验，我们引入了LLaVA-OneVision。我们使用可用的计算方法实现了新的模型。特别是，我们的论文做出了以下贡献：

Large multimodal models.。开发了LLaVA-OneVision，，它提高了在三个重要的视觉场景中的性能边界，包括单图像、多图像和视频场景。
Emerging Capabilities with Task Transfer。我们在建模和数据表示方面的设计允许在不同的场景之间转移任务，这提出了一种简单的方法来产生新的合并能力。特别是，LLaVA-OneVision通过从图像中获得的任务转移，展示了很强的视频理解能力。
Open-source。为了为构建一个通用的可视化助手铺平道路，我们向公众发布了以下资产：生成的多模态指令数据、代码库、模型检查点和可视化聊天演示。

SoTA专有的lmm，如GPT-4V [109]、GPT-4o [110]、Gemini [131]和Claude-3.5 [3]，在真实视觉场景中表现出出色的性能，包括单图像、多图像和视频设置。在开放的研究社区中，现有的工作通常会分别开发针对每个单独场景的模型。具体来说，大多数关注于单图像场景[26,83,173,73,164,35]的性能限制，最近只有几篇论文开始探索多图像场景[70,47]。虽然视频lmm在视频理解方面表现出色，但它们通常以牺牲图像性能[72,76]为代价。很少有一个开放模型能够在所有三种场景中报告出色的性能。LLaVA-OneVision旨在通过在广泛的任务中展示最先进的性能，并通过跨场景任务转移和组合展示有趣的新兴能力来填补这一空白。

据我们所知，LLaVA-NeXT-Interleave[68]是首次尝试报告在所有三种场景下的良好性能，LLaVA-OneVision继承了它的训练配置和数据，以提高性能。其他具有卓越潜力的多功能开放lmm包括VILA[77]，InternLM-XComposer2.5[162]。不幸的是，他们的结果并没有得到充分的评估和报告；我们在实验中与他们进行了比较。除了构建具有多用途功能的系统外，LLaVAOneVision还受益于大规模高质量的数据训练，包括模型合成知识和不同指令调优数据的新收集。对于前者，我们继承了[64]中所有的知识学习数据。对于后者，我们的动机是由FLAN [136,88,145]驱动的。数据收集过程与Idefics2 [63]和Cambrian-1[133]同步，但我们专注于一个更小但更精心策划的数据集收集。我们还观察到类似的结论：大量的可视化指令调优数据可以显著提高性能。对于lmm的设计选择的全面调查，我们参考了最近的几项研究[51,63,64,104,133,10]。

3 Modeling

3.1 Network Architecture

该模型架构继承了LLaVA系列的极简主义设计，其主要目标是(i)有效地利用LLM和视觉模型的预训练能力（ii）在数据和模型方面促进了强大的缩放行为。网络的原始结构如图1所示：

LLM：我们选择Qwen-2 [148]作为我们由ϕ参数化的LLM fϕ（·），因为它提供了各种模型大小，并在公开的检查点中显示出强大的语言能力。
Vision Encoder：我们认为SigLIP [158]是由ψ参数化的视觉编码器gψ（·），将输入图像Xv编码到其视觉特征 Z v = g （ X v ） Z_v = g（X_v） Zv=g（Xv）中。我们在实验中考虑了最后一层变压器层前后的网格特征。
Projector：我们考虑一个由θ参数化的2层MLP[81] pθ（·），将图像特征投影到单词嵌入空间中，产生一系列视觉令牌 H v = p （ Z v ） H_v = p（Z_v） Hv=p（Zv）。

模型的选择是基于我们在[65,64]中的经验见解，即更强的LLM通常会增强更强的多模态能力，而SigLIP在开放视觉编码器中产生更高的LMM性能。

对于一个长度为L的序列，我们计算目标输出 X a X_a Xa的概率为：

其中， X q , < i X_{q,<i} Xq,<i和 X a , < i X_{a,<i} Xa,<i分别是当前预测标记 x i x_i xi之前所有回合的指令和应答标记。对于(1)中的条件句，我们明确地添加了 X v X_v Xv来强调视觉信号对所有答案都是基于这个事实的。如第3.2节所述，视觉信号的形式是通用的。输入视觉编码器的视觉输入依赖于相应的场景：单图像序列中的外部图像裁剪、多图像序列中的外部图像和视频序列中的外部帧。

3.2 Visual Representations

视觉信号的表示是视觉编码成功的关键。它与两个因素有关，即原始像素空间中的分辨率和特征空间中的标记数量，这导致了视觉输入表示配置（分辨率，#标记）。这两个因素的缩放可以提高性能，特别是在需要视觉细节的任务上。为了平衡性能和成本，我们观察到分辨率的缩放比令牌编号更有效，并推荐了使用池化的AnyRes策略。该比较结果如图2所示。

对于宽度为a、高度为b的AnyRes，它将图像分成一个a*b个切片，每个切片都具有相同的分辨率形状（a，b）。假设每种crop有T个标记，视觉标记的总数是L =（a×b + 1）×T，其中基本图像在被输入视觉编码器之前被调整大小。我们考虑一个阈值τ，并减少切片的token数，如果需要，使用双线性插值：

定义了一组空间配置（a，b）来指定裁剪图像的各种方法，从而容纳不同分辨率和长径比的图像。其中，选择了需要最少切片数量的配置4。请参见我们在[64]中对视觉表示的详细描述。

所提出的更高的任意值策略可以作为一个灵活的视觉表示框架，适用于多图像和视频表示。性能和成本的最佳配置可以相应地进行调整。我们在图3中说明了配置，在C.1节中详细描述，并提供了高级编码策略如下：

Single-image : 我们考虑一个大的最大空间配置（a，b）的单图像表示，以保持原始图像的分辨率而不调整大小。此外，我们有目的地为每幅图像分配大量的视觉标记，从而得到一个长序列来有效地表示视觉信号。这是基于观察到，与视频相比，有更多的高质量的训练样本具有不同的图像指令。通过用模拟视频表示的长序列表示图像，我们促进了更平滑的能力转移从图像到视频理解[169,64]。
Multi-image : 只考虑图像的原始分辨率，并将其输入视觉编码器以获得特征图，消除了对高分辨率图像的多次裁剪，从而节省了计算资源[68]。
Video : 视频的每一帧都被调整到基本图像的分辨率，并由视觉编码器处理以生成特征地图。采用双线性插值法来减少token的数量，允许通过减少每一帧的token来考虑更多的帧数。经验证据表明，这在性能和计算成本[169]之间提供了更好的权衡。

在我们的实验中，这些表示配置是为具有固定计算预算的能力转移而设计的。随着计算资源的增加，在训练和推理阶段都可以增加每个图像或帧的令牌数量，以提高性能。

4 Data

在LLM的多模态训练领域中，"质量高于数量"的公理尤其正确。这一原则是至关重要的，因为在预先训练过的llm和视觉变压器（ViTs）中存储了广泛的知识。虽然在LMM的训练生命周期结束时积累平衡、多样化和高质量的指导数据至关重要，但一个经常被忽视的方面是，模型不断暴露于新的高质量的数据，以便进一步获取知识。在本节中，我们将讨论高质量知识学习和视觉教学调优的数据源和策略

4.1 High-Quality Knowledge

网络规模的公共图像-文本数据往往质量较低，使得多模态预训练的数据缩放效率较低。相反，我们建议在有限的计算预算下，关注高质量的知识学习。这种方法承认，预先训练过的llm和vit已经拥有了大量的知识库，其目标是通过精心管理的数据来完善和增强这些知识。通过对数据的质量进行优先级排序，我们可以最大限度地提高计算效率。我们考虑了来自高质量知识学习的三个主要类别的数据：

Re-Captioned Detailed Description Data: LLaVA-NeXT-34B具有较强的详细caption能力而闻名。我们使用该模型为以下数据集的图像生成新的标题： COCO 118K、BLIP 558K和CC 3M。我们将它们组合起来，重新生成详细描述数据，总计有350万个样本。这可以被看作是对自我改进的人工智能的一种简单的尝试，其中的训练数据是由模型本身的早期版本生成的。
Document / OCR Data: 利用了来自UReader数据集的文本阅读子集，总计100K，这很容易通过PDF渲染生成。我们使用此文本读取数据与SynDOG EN/CN一起使用，形成文档/ OCR数据，总计110万个样本。
Chinese and Language Data: 我们使用原始的ShareGPT4V [20]图像，并使用Azure API提供的GPT-4V生成92K详细的中文标题数据，旨在提高模型的中文能力。由于我们使用了大量详细的caption数据，我们的目标也是平衡模型的语言理解能力。我们从evo-指令数据集[16]中收集了143K个样本。

值得注意的是，几乎所有（占99.8%）都是合成的。这是由于与在互联网收集大规模、高质量的数据相关的高成本和版权限制。相比之下，合成数据可以很容易地进行缩放。我们相信，随着人工智能模型继续强大，从大规模合成数据中学习正在成为一种趋势。

4.2 Visual Instruction Tuning Data

视觉指令调优[83]是指LMM理解和操作视觉指令的能力。这些指令可以以语言的形式，与图像和视频等视觉媒体相结合，LMM处理和遵循来执行任务或提供响应。这包括将视觉理解与自然语言处理相结合，以解释指令和执行所需的反应。

Data Collection and Curation 正如在之前的工作[81,133,63]中所描述的那样，可视化的指令调优数据对于LMM的能力是至关重要的。因此，维护一个高质量的数据集收集对社区是至关重要的和有益的。我们开始从各种原始来源中收集大量的指令调优数据集，而不同类别之间的数据比例却不平衡。此外，我们还利用了来自大锅[63]和寒武纪[133]数据集的一些新子集。我们根据三个层次的层次结构对数据进行分类：视觉、指令和反应。

Vision Input. 考虑了三种视觉场景，在多模态序列中考虑了视觉输入，包括单图像、多图像、视频。
Language Instruction 这些指令通常以问题的形式出现，它定义了处理视觉输入所要执行的任务。我们将数据主要分为五类：一般QA、一般OCR、文档/图表/屏幕、数学推理和语言。这些指令定义了一个经过训练的LMM可以涵盖的技能集。我们使用任务分类来帮助维持和平衡技能的分配。
Language Response. 这个答案不仅响应了用户的请求，而且还指定了模型的行为。它可以大致分为自由形式和固定形式。

自由形式的数据通常由GPT-4V/o和Gemini等高级模型进行注释，而固定形式的数据则来自学术数据集，如VQAv2、GQA、Visual Genome。对于自由形式的数据，我们保留了原始的答案。然而，对于固定表单的数据，我们会手动审查内容，并对问答格式进行必要的修改。我们对多项选择数据、短回答数据和特定任务数据（如OCR）遵循LLaVA-1.5提示策略。这一步对于指导模型的行为，以在更复杂的任务中正确地平衡QA性能、对话能力和推理技能，以及防止来自不同数据源的潜在冲突至关重要。我们在附录E.3中列出了我们集合中每个数据集的完整细节，以及它们的分类和格式化提示。

我们将指令数据单独分为两组：一组用于单图像场景，另一组用于所有视觉场景。这一划分是基于我们早期研究[68,169]的见解，该研究强调了图像和视频模型之间的关系：一个更强的图像模型可以更好地转移到多图像和视频任务中。此外，单个图像的训练数据集的数量和质量明显高于视频和多图像任务。

Single-Image Data. 由于单图像数据对于多模态功能至关重要，我们明确地编译了一个大型的单图像数据收集，用于模型学习。我们从收集的数据源中进行选择，形成一个平衡的收集，总共得到320万个样本。单幅图像数据的总体分布如图4所示，详细信息和数据收集路线图见附录E.1。

OneVision Data. 除了单图像阶段的训练外，我们还使用视频、图像和多图像数据的混合物来进一步微调模型。我们总共引入了160万个混合数据样本，包括来自[68]的560K多图像数据，本项目收集的350K视频，和800K单图像样本。值得注意的是，在这一阶段，我们没有引入新的单图像数据，而是从之前的单图像数据中采样高质量和平衡的部分，数据分布和细节如图5所示，其他信息见附录E.2。

5 Training Strategies

为了使LLM能够实现多模态能力，我们确定了三个关键功能，并系统地将它们划分为三个不同的学习阶段，以便进行消融研究。与现有的大多数研究一样，先前的LLaVA模型主要探索单图像指令调优。然而，对其他部分的调查较少，因此构成了本节的主要重点。

我们通过课程学习原则来训练模型，其中训练目标和难度增加的例子以阶段的方式观察。在固定的计算预算下，这种策略有助于分解训练过程，并产生即时的检查点，可以在更多的实验试验中重用:

阶段1：语言图像对齐。目标是将视觉特征对齐到llm的单词嵌入空间中。
阶段-1.5：高质量的知识学习。为了在计算效率和向LMM注入新知识之间取得平衡，我们建议考虑LMM学习的高质量知识。训练配置反映了阶段2中使用的设置，确保了一致性，并允许模型无缝地集成新信息。
阶段2：视觉指令调整。为了教LMM解决一组具有偏好反应的不同视觉任务，我们将指令数据组织成不同的组，如第4.2节所述。该模型计划依次对这些组进行训练。

具体来说，视觉指令调优过程包括两个阶段： (i)单图像训练：模型首先在320万条单图像指令上进行训练，导致模型在遵循不同指令集以使用单一图像完成视觉任务方面具有良好的性能 。（ii）单视觉训练：然后在视频、单图像和多图像数据的混合物上对模型进行训练。在这个阶段，该模型将其功能从单个图像场景扩展到不同的场景。它学会了在每个新的场景中按照指令来完成任务，并在不同的场景中转移所学到的知识，从而产生新的突发能力。请注意，在培训后阶段提出的OneVision培训可能是使lmm具有多图像和视频理解能力的最简单和最经济有效的方法。

训练策略总结见表1。我们逐步训练该模型来处理长序列训练。随着训练的进行，最大的图像分辨率和视觉标记的数量逐渐增加。在阶段1中，基本图像表示包含729个令牌。在第1.5阶段和第2阶段中，AnyRes分别被认为具有5倍和10倍以上的视觉标记。对于可训练的模块，第一阶段只更新投影层，而后续阶段则更新完整的模型。视觉编码器的学习率比LLM小5倍。

6 Experimental Results

我们使用LMMs-Eval [161]对所有基准上的LLaVA-OneVision模型进行了标准化和可重复性的评估。为了与其他领先的lmm进行公平的比较，我们主要报告来自原始论文的结果。当结果不可用时，我们将使用lmm-eval中的模型，并使用一致的设置来评估它们。除非另有说明，我们所有的结果都是用贪婪解码和zero-shot设置来报告的。

为了揭示设计范式的通用性和有效性，我们在表2中全面评估了不同模式下的LLaVA-OneVision模型，包括单图像、多图像和视频基准。各模态的详细结果分别见表3、表4和表5。我们将在单图像阶段和单视觉阶段之后训练的模型检查点分别表示为LLaVA-OV（SI）或LLaVA-OV。

提供了三种模型尺寸（0.5B、7B和72B），以适应具有不同性能-吞吐量权衡的应用程序，从边缘设备到云服务。GPT-4V和GPT-4o的结果作为参考。我们最大的模型LLaVA-OneVision-72B在大多数基准测试上，在GPT-4V和GPT-4o之间产生了优越的性能。这表明，所提出的配置是有效的，揭示了一个有前途的途径，以进一步扩展。然而，在视觉聊天场景等复杂任务中，仍然存在相对较大的差距，我们将其留给了更强的llm、更大的训练数据和更好的偏好学习的未来研究。

6.1 Single-Image Benchmarks

为了验证真实场景中单个图像任务的性能，我们在表3中考虑了一组全面的图像基准测试。它可以分为三类：

(1)图表、图表和文档理解。作为结构化OCR数据的主要可视化格式，我们评估了AI2D [54]、ChartQA [101]、DocVQA [103]和InfoVQA [102]基准测试的结果。尽管目前的开源模型如InirVL[22]和寒武纪[133]达到了与商业模型相当的性能，LLaVA-OneVision更进一步，超过了GPT-4V [109]，接近GPT-4o [110]的性能水平。
(2)感知和多学科的推理。包括视觉感知场景，我们揭示了我们的模型在更复杂和更具有挑战性的推理任务中的潜力。具体来说，我们采用了感知基准，包括MME [151]、MMBench [86]和MMVet [154]，以及推理基准，如数学语言[165]、MathVista [90]和MMMU [157]。LLaVA-OneVision的结果在不同的基准测试上显著优于GPT-4V，并可与MatsVista上的GPT-4o相媲美。这进一步证实了我们的框架在视觉感知和推理任务中的优越性。
(3)现实世界的理解和视觉聊天。我们认为，在实验室环境之外，对lmm的评估是最重要的指标。为了在现实场景中验证这些功能，我们使用了几个广泛采用的基准测试，包括现实世界QA[141]、Vibe-Eval [111]、MM-LiveBench [161]和LLaVA-Bench-Wilder [65]。虽然与GPT-4V和GPT-4o相比，我们的模型仍有改进的空间，但它与参数大小相似的开源模型实现了竞争性能。值得注意的是，我们的模型在MM-LiveBench [161]上表现良好，这是一个用于不断更新内容的真实互联网内容的基准，展示了模型广泛的世界知识和强大的泛化能力。

6.2 Multi-Image Benchmarks

我们进一步评估LLaVA-OneVision在多图像交错设置中，用户可以在多个图像之间提问。特别是，我们对LLaVA交错工作台[68]的不同子任务进行了全面评估，如找出差异[45]、图像编辑指令（IEI）[68]、视觉讲故事（VST）[40]、富文本VQA（TR-VQA）[85]、多图像VQA（MI-VQA）[117]、Raven Puzzle[24]、Q-Bench（QB）[139]和NLVR2[125]）。我们还利用了几个多视图基准进行评估，它们描述了具有多个视点的3D环境，包括3D-LLM [38]的任务分解（3D-TD）、ScanQA [5]、ALFRED [122]和nuScenes VQA [9]。我们将这些数据集称为域内评估，因为我们的训练数据包括了它们的训练分割。

此外，我们对不同的域外任务进行了评估，这揭示了我们的方法的泛化能力。它们包括数学QA基准、数学语言[165]和科学QA基准科学语言[34]，多图像感知基准blink[31]，MMMU-（多图像）[157]，以及跨越12个不同的多图像任务的MuirBench [135]。

如表4所示，LLaVA-OneVision（SI）在所有基准测试中的性能始终优于现有的多图像lmm。在对多图像和视频数据进行额外调整后，LLaVA-OneVision在特定区域比GPT-4V有显著改善，并有显著的边际。这突出了它在复杂任务中的强大性能，如多图像推理、识别差异和理解3D环境。此外，我们观察到在单视觉训练阶段后的持续性能增强，这在缺失的多视图基准测试中在单图像数据更为明显。这表明了我们的单视觉范式对赋予lmm全面视觉能力的意义。

6.3 Video Benchmarks

视频也是建立世界模型的一种常见方式，捕捉现实世界随着时间变化的动态本质。我们在几个开放式和多种选择的视频基准测试上进行了实验。这些包括活动网络QA[155]包含人类注释的行动质量对来自ActivityNet数据集，EgoSchema[98]和MLVU [170]专注于长视频理解，PerceptionTest[115]旨在评估感知技能，VideoMME[29]和NeXTQA [142]包含不同的视频域和持续时间（从分钟到小时），VideoDetailCaption[87]和VideoChatGPT[96]分别为视频详细描述和视频聊天。

如表5所示，LLaVA-OneVision比以前使用更大的llm的开源模型获得了可比性或更好的结果。lava-OneVision的优势在复杂的模式和视频基准测试中尤为明显。即使与先进的商业型号GPT-4V相比，LLaVA-OneVision在ActivityNet-QA、MLVU和VideoMME基准上也具有竞争力。

在LLaVA-OV中，最小的性能差异出现在感知测试中，当将LLM从0.5B缩放到7B时，最小的提高为0.5分。这与其他数据集上至少5点的改进形成对比。感知测试的适度增加表明，LLaVA-OV的感知能力可能主要取决于其视觉模块，这支持了最近的研究结果，如Qiao等人[116]的研究，这些研究将图像编码器和LLM在感知和推理任务中的作用分开。值得注意的是，对于像EgoSchema这样需要大量推理的数据集，一个更大的LLM可以大大提高性能。

此外，在比较LLaVA-OV-7B（SI）和LLaVA-OV-7B时，ActivityNet-QA的改善最小。这表明LLaVA-OV-7B（SI 只训练图像），已经在这个数据集上表现良好了。深入研究活动ActivityNet-QA，很明显，许多问题都可以通过观察视频中的一帧来回答。例如，问"球的颜色是什么？"可以在整个视频中回答，因为球从开始到结束都可见。这种情况不需要模型来理解视频序列，从而允许LLaVA-OV-7B（SI）表现良好。
ActivityNet-QA不适用作为视频问答，很多问题基于单帧就可以回答

7 Emerging Capabilities with Task Transfer

除了报告LLaVA-OneVision在各种基准中的能力外，我们还观察了所提出的模型在任务转移和组合方面的新兴行为，为推广处理现实世界的野外计算机视觉任务铺平了一条有前途的方法。我们将使用下面的示例来说明几个新出现的功能。

S1：图表的联合理解（从单图像转换到多图像）理解图表的能力是从单图像图表和单图像图表理解数据中分离学习的，表格和图表的联合理解任务不出现在多图像数据中。如表6所示，LLaVA-OneVision能够理解和推理图表和图表的结合。

S2：多模态代理的GUI（从单图像迁移到多图像）。理解gui和将多模态模型应用于代理任务是非常有价值的。在表7中，LLaVAOneVision可以识别iPhone的图形用户界面（GUI）截图，并提供搜索和打开抖音应用程序的操作说明。这个任务需要从单图像场景中学习到强大的OCR能力，以及从多图像场景中开发出来的关系推理技能。该示例强调了LLaVA-OneVision在GUI理解和任务执行方面的熟练程度。

S3：标记集提示（从单个图像任务组合传送）。与现有的开放llm不同，LLaVA-OneVision展示了优秀的标记集（SoM）推理[149]，这是表8所示的一种新兴能力。据我们所知，这是第一次开放LMM报告良好的SoM能力，因为我们观察到LLaVA-OneVision能够为[149]中的许多例子产生SoM推理。这个任务并没有明确地包含在我们的训练数据中，它是假设的，即能力是由视觉参考和OCR组成的。

S4：图像到视频的编辑指令（从单个图像和视频传输）。LLaVAOneVision可以根据表9中的静态图像生成详细的视频创建提示。给定一个图像和一个目标视频，该模型为视频构建了一个连贯和生动的叙述，详细描述了一些元素，如角色、动作、背景设置和场景细节。这个任务同时利用了单图像分析和视频理解。假设这种能力是由单图像编辑指令任务和视频详细描述任务推广而来的。

S5：视频与视频之间的差异（从多图像和视频传输）。理解图像中的差异在最近的大型多模态模型（lmm）中是一种常见的能力，但我们的模型将这种能力扩展到了视频中。表10显示了LLaVA-OneVision分析两个具有相同起始帧但不同结尾的视频序列之间的差异的能力。该模型提供了一个详细的比较，描述了角色、动作和场景的变化。

在表11中，LLaVA-OneVision逐个描述了背景相似但前景中主要对象不同的视频之间的差异。这个任务利用发现多图像分析中的差异来推广到视频场景。

S6：自动驾驶中的多摄像机视频理解（从单图像和多图像转换到视频）。理解正常宽高比的视频很简单，那么多视角的视频呢？在表12中，我们观察到LLaVA-OneVision可以分析和解释来自自动驾驶汽车的多摄像头视频片段。给定显示四个摄像头视图的视频，该模型详细描述了每个视图，并计划自我汽车的下一步行动。该任务结合了多面板理解、视频详细描述和时空推理。

S7：合成子视频理解（从多图像转换到视频）。除了多视点视频外，我们还可以看到我们的模型推广到带有两个子场景的垂直视频。表13展示了LLaVA-OneVision理解和描述一个组成的子视频的内容和布局的能力。给定一个垂直视频，包括一系列具有一致背景和前景人物的框架，该模型提供了对视觉元素、它们的安排和叙述背景的详细分析。该任务需要单图像分析、多图像序列理解和语境推理。

S8：视频中的视觉提示（任务从单个图像迁移到视频）。在表14中，LLaVAOneVision能够理解视频中使用半透明圆圈的高光区域，并能清楚地看到玩家背面的数字"10"。理解视觉提示和OCR的能力是单图像lmm的能力。我们的模型显示了理解视频中的视觉提示的能力，而不需要对具有视觉提示的视频数据进行训练。

S9：视频理解中的视觉参考。在回答有关视频的问题时，能够参考图像查询，如表15所示。这种能力在LLaVA-NeXT或LLaVA-Interleave中没有发现，这可能是因为需要强大的基础单图像训练才能出现这种能力。

8 Conclusions

LLaVA-OneVision是一种新的、开放的LMM，它在单图像、多图像和视频场景中转移到广泛的任务时闪闪发光。该模型是通过整合LLaVA-NeXT博客系列中的见解而开发的，并通过使用更大的数据集和更强的llm来缩放配方来进行训练。我们的设计允许新的能力出现，通过一起训练多个场景和任务转移，例如，从图像到视频的强大的视觉理解能力。我们的结果表明，使用这种开放配方和资源训练的lmm在各种基准测试中实现了最先进的性能。我们还希望LLaVA-OneVision能够作为社区构建特定应用程序的一个有价值的起点，并通过进一步的扩展为不同的视觉场景开发更强大的lmm。