Visual CoT：解锁视觉链式思维推理的潜能

引言
随着GPT-4、Gemini等大型语言模型（LLM）取得的显著成就，学术界正致力于将这些模型的卓越能力拓展至视觉理解领域，从而催生了LLaVA、SPHINX、Qwen VL等一系列多模态大型语言模型的涌现。这些模型能够从输入图像中提取视觉特征，但在处理复杂的视觉细节方面仍显力不从心，与人类能够动态聚焦于特定图像区域的能力相去甚远。

尽管CLIP、EVA2-CLIP、InternVL等多模态大型语言模型（MLLM）采用固定粒度的方法来处理图像，但模拟人类的推理过程却要求识别并放大关键图像区域，以便动态地调整上下文信息。目前，MLLM严重依赖文本数据，在处理多回合动态视觉输入和进行可解释推理方面存在明显不足。此外，现有的视觉问答（VQA）数据集缺乏中间视觉思维链（CoT）的监督信息，同时流行的MLLM框架又过度依赖于静态图像上下文输入，这无疑进一步加剧了这一挑战。

在此背景下，Visual CoT应运而生，它引入了一个包含438,000个样本的视觉CoT数据集。在这个数据集中，每个视觉问答对都配有一个边界框（Bounding Box），用以突出显示回答问题所必需的关键图像区域。该数据集还包含了98,000个问答对，这些问答对附带了详细的推理步骤，旨在逻辑地引导MLLM进行推理。Visual CoT通过聚焦于关键区域并提供逐步的可解释性，从而增强了视觉CoT推理的能力。

©️【深蓝AI】编译

论⽂题目：Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning

论文作者：Hao Shao, Shengju Qian, Xiao Han, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, Hongsheng Li

论文地址：https://arxiv.org/abs/2403.16999

多模态推理面临的挑战

MLLM在图像描述、视觉问答（VQA）、目标检测等任务中展现出了卓越的性能，但仍面临以下挑战：

1. 缺乏可解释性：现有模型大多采用黑箱设计，使得其推理过程难以被理解和解释。

2. 复杂视觉输入处理能力不足：在处理高分辨率图像或包含微小细节的区域时，模型往往容易出错或效率低下。

3. 静态处理方式限制了灵活性：大多数模型以固定的粒度处理视觉上下文，忽视了动态聚焦所带来的优势。

4. 链式思维（CoT）的潜力尚未得到充分挖掘：尽管CoT提示已在语言模型的文本推理中取得了显著成效，但在视觉领域的应用仍处于初步探索阶段。

Visual CoT

为了应对上述挑战，Visual CoT提出了以下核心创新点：

1. 全面的数据集

规模宏大：包含438,000个视觉问答对，每个问答对都附有关键区域的边界框标注。
推理步骤详尽：98,000个问答对配备了逐步推理逻辑，为模型提供指导。
领域广泛：涵盖文本/文档、细粒度理解、图表、通用VQA和关系推理五大领域。
目标明确：助力模型精准聚焦相关区域，提升准确性和效率。

▲图1 | 视觉 CoT 数据集涵盖五个领域。©️【深蓝AI】编译

2. 多轮处理pipeline

Visual CoT通过以下方式实现了动态且人性化的推理

逐步聚焦于关键视觉区域。
整合原始图像与局部图像的信息。
生成可解释的中间推理步骤。

3. 评估基准

Visual CoT基准专注于评估以下能力

动态聚焦能力：识别图像中的关键区域。
推理能力：生成逻辑上连贯且通向正确答案的步骤。
效率：在计算资源和性能之间找到最佳平衡点。

Visual CoT的工作原理

▲图2 | Visual CoT MLLM框架使用标准模型而不做任何修改，是增强具有可视化 CoT 功能的 MLLM 的基准。 ©️【深蓝AI】编译

▲图3 | 带有详细推理步骤的数据示例。 ©️【深蓝AI】编译

Visual CoT框架包含以下核心步骤：

视觉采样器：根据边界框预测结果，识别并裁剪出最相关的图像区域。
视觉编码器：处理原始图像和局部裁剪后的图像。
语言模型集成：结合视觉标记和语言推理，生成准确且可解释的答案。
多轮推理：通过生成边界框和推理步骤，逐步优化关注区域。

训练流程

第一阶段：冻结视觉编码器和语言模型的权重，仅使用图像-文本对进行预训练。
第二阶段：利用Visual CoT数据集进行微调，释放所有参数以达到最佳性能。

实验结果与发现

研究人员针对VisCoT的视觉理解能力，在一系列多样化的多模态任务中进行了全面评估。图4直观地展示了在Visual CoT基准测试中，VisCoT所取得的显著进步。具体而言，与LLaVA-1.5模型相比，所提出的模型在Visual CoT基准上展现出了尤为突出的提升，这一优势在文档/文本处理任务以及涉及高分辨率图像的场景中尤为明显。

以SROIE数据集为例，该数据集专注于从收据中精准提取关键信息。在此场景下，采用所提模型并融入CoT流程的方案，相较于未采用CoT流程的标准处理流程，其性能实现了高达8倍的提升。这一卓越成果有力地验证了Visual CoT在强化视觉与文本信息解析能力方面的非凡效力。

以下呈现的是VisCOT的可视化实例，其中，模型自动生成的边界框以红色标记，代表Ground Truth的边界框以蓝色框标记，直观地显示了VisCOT在精准捕捉并识别那些细小而关键区域方面的卓越效能。

应用前景与未来展望

模拟人类推理

Visual CoT模仿人类的认知过程，动态聚焦于相关区域并生成详细的推理步骤。这为以下应用场景带来突破：

医学影像：精准识别扫描中的关键区域。
自动驾驶：动态解读复杂交通场景。
交互系统：提供更具解释力的AI助手。

推动基准发展

Visual CoT数据集和基准为多模态模型的进一步创新设立了新的标杆，将促进以下方向的发展：

细粒度推理能力的提升。
动态多轮注意力的应用。
可解释性AI的实现。

总结

Visual CoT通过引入链式思维推理和动态视觉聚焦机制，显著增强了多模态语言模型的可解释性和性能。它不仅弥合了视觉与语言推理之间的鸿沟，更为下一代高效、可解释的AI系统奠定了坚实的基础。AI的未来在于"看、推理、解释"，而Visual CoT无疑让我们朝着这一目标迈出了坚实的一步。