【论文笔记】LLaVA-o1: Let Vision Language Models Reason Step-by-Step

🍊个人网站：小嗷犬的技术小站

🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题 : LLaVA-o1: Let Vision Language Models Reason Step-by-Step
作者 : Guowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan
arXiv : https://arxiv.org/abs/2411.10440

摘要

大型语言模型在推理能力方面取得了显著进步，尤其是在推理时间扩展方面，如OpenAI的o1模型所示。

然而，当前的视觉-语言模型（VLMs）在执行系统化和结构化推理方面往往存在困难，尤其是在处理复杂的视觉问答任务时。

在本研究中，我们引入了LLaVA-o1，这是一种新型的VLM，旨在进行自主的多阶段推理。与思维链提示不同，LLaVA-o1独立进行总结、视觉解释、逻辑推理和结论生成的连续阶段。

这种结构化方法使LLaVA-o1在推理密集型任务上的精度得到了显著提高。

为了实现这一点，我们编译了LLaVA-o1-100k数据集，整合了来自各种视觉问答来源的样本，并提供了结构化推理注释。

此外，我们提出了一种推理时间阶段级束搜索方法，它能够有效地进行推理时间扩展。

值得注意的是，仅使用10万个训练样本和简单而有效的推理时间扩展方法，LLaVA-o1不仅在广泛的跨模态推理基准测试中比其基础模型提高了8.9%，而且甚至超过了更大甚至闭源模型，如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct的性能。

主要贡献

我们引入了LLaVA-o1，这是一种专为系统推理设计的视觉语言模型，在需要结构化思考和推理的任务上表现出色。
我们证明，使用阶段级束搜索的LLaVA-o1在推理时间上是可扩展的。这意味着随着计算资源的增加，我们方法的表现可以进一步提升，使其适用于更复杂任务和场景。
在各种基准测试上的大量实验表明，与更大和闭源模型相比，我们的方法实现了更优越的性能，凸显了LLaVA-o1在多模态推理中的有效性。

方法

我们的LLaVA-o1促进了一种逐步推理的过程，增强了视觉-语言模型（VLMs）的推理能力，并允许有效地进行推理时间缩放。

通过结构化思维，LLaVA-o1实现了系统而高效的推理过程。其推理时间推理框架使其在推理时间可扩展性方面优于现有方法。

这种设计确保了在需要推理的复杂任务中既具有鲁棒性又具有准确性，从而与传统方法区分开来。

Enhancing Reasoning Capability through Structured Thinking

我们的目标是在训练期间开发一个能够进行扩展推理链的视觉语言模型，使其能够进行系统性和深入的推理。

Reasoning Stages

我们提出的模型，LLaVA-o1，将答案生成过程分解为四个结构化推理阶段：

Summary Stage: 在这个初始阶段，LLaVA-o1对问题进行高级总结解释，概述其打算解决的问题的主要方面。
Caption Stage: 如果存在图像，LLaVA-o1提供与问题相关的视觉元素的简要概述，帮助理解多模态输入。
Reasoning Stage: 在初始总结的基础上，LLaVA-o1进行结构化、逻辑推理以得出初步答案。
Conclusion Stage: 在这个最终阶段，LLaVA-o1根据前面的推理综合出一个答案。在此，结论阶段的输出是直接提供给用户的响应，而前三个阶段是内部"隐藏阶段"，代表LLaVA-o1的推理过程。此阶段的输出会根据用户需求进行调整：例如，如果用户请求简短答案，结论将是简洁的；如果需要详细解释，结论将提供全面、详尽的响应。

每个阶段都由模型自行启动，无需外部提示工程框架或额外提示。

具体来说，我们向模型提供了四对特殊标签：<SUMMARY></SUMMARY>、<CAPTION></CAPTION>、<REASONING></REASONING>和<CONCLUSION></CONCLUSION>。

这些标签分别对应总结响应方法、描述相关图像内容、进行推理和准备最终答案。

在训练过程中，模型会自主选择这些标签，根据自身判断激活每个阶段。

与OpenAI o1一样，所有阶段都由模型在单个推理过程中完成。这种结构化方法使模型能够独立管理其推理过程，提高其在复杂推理任务上的适应性和性能。

Data Preparation and Model Training

大多数现有的VQA数据集缺乏训练LLaVA-o1模型所需的详细推理过程。

因此，我们编制了一个新的数据集，整合了来自几个广泛使用的VQA数据集的样本，共计99k个图像问答对（每个对可能包含一轮或多轮提问）。

如图3所示，由于目前尚不存在可以直接产生系统化、结构化推理的多模态模型，我们使用GPT-4o生成详细的推理过程，包括摘要、标题、推理和结论，并将这些编译成LLaVA-o1-100k数据集，我们计划将其公开发布。

我们包括以下通用VQA数据集和针对科学领域的VQA数据集的数据：

通用VQA数据集。我们包括几个具有不同重点的通用目的VQA数据集。ShareGPT4V提供了来自GPT4V交互的多轮问答数据。ChartQA专注于图表和图形的解读。A-OKVQA强调可见内容之外的外部知识。DocVQA涉及基于文档的问题，需要文本理解。我们还包括PISC来理解社会关系，以及CLEVR来处理物体属性、空间关系和计数任务。

针对科学领域的VQA数据集。这些数据集包括GeoQA+用于几何推理，以及AI2D和ScienceQA，它们针对科学问题。CLEVR-Math，CLEVR的扩展，专注于视觉环境中的算术分析。表1显示了从每个数据集中选出的QA对数量。

模型训练。我们构建的LLaVA-o1-100k数据集可用于对任何现有模型进行进一步的监督微调（SFT），以增强推理能力。在本工作中，我们选择Llama-3.2-11B-Vision-Instruct模型作为基础模型，并使用LLaVA-o1-100k数据集进行全参数微调。训练在一个节点上使用8个H100 GPU进行。