引言
随着GPT-4、Gemini等大型语言模型(LLM)取得的显著成就,学术界正致力于将这些模型的卓越能力拓展至视觉理解领域,从而催生了LLaVA、SPHINX、Qwen VL等一系列多模态大型语言模型的涌现。这些模型能够从输入图像中提取视觉特征,但在处理复杂的视觉细节方面仍显力不从心,与人类能够动态聚焦于特定图像区域的能力相去甚远。尽管CLIP、EVA2-CLIP、InternVL等多模态大型语言模型(MLLM)采用固定粒度的方法来处理图像,但模拟人类的推理过程却要求识别并放大关键图像区域,以便动态地调整上下文信息。目前,MLLM严重依赖文本数据,在处理多回合动态视觉输入和进行可解释推理方面存在明显不足。此外,现有的视觉问答(VQA)数据集缺乏中间视觉思维链(CoT)的监督信息,同时流行的MLLM框架又过度依赖于静态图像上下文输入,这无疑进一步加剧了这一挑战。
在此背景下,Visual CoT应运而生,它引入了一个包含438,000个样本的视觉CoT数据集。在这个数据集中,每个视觉问答对都配有一个边界框(Bounding Box),用以突出显示回答问题所必需的关键图像区域。该数据集还包含了98,000个问答对,这些问答对附带了详细的推理步骤,旨在逻辑地引导MLLM进行推理。Visual CoT通过聚焦于关键区域并提供逐步的可解释性,从而增强了视觉CoT推理的能力。
©️【深蓝AI】编译
论⽂题目:Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning
论文作者:Hao Shao, Shengju Qian, Xiao Han, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, Hongsheng Li
论文地址:https://arxiv.org/abs/2403.16999
多模态推理面临的挑战
MLLM在图像描述、视觉问答(VQA)、目标检测等任务中展现出了卓越的性能,但仍面临以下挑战:
1. 缺乏可解释性:现有模型大多采用黑箱设计,使得其推理过程难以被理解和解释。
2. 复杂视觉输入处理能力不足:在处理高分辨率图像或包含微小细节的区域时,模型往往容易出错或效率低下。
3. 静态处理方式限制了灵活性:大多数模型以固定的粒度处理视觉上下文,忽视了动态聚焦所带来的优势。
4. 链式思维(CoT)的潜力尚未得到充分挖掘:尽管CoT提示已在语言模型的文本推理中取得了显著成效,但在视觉领域的应用仍处于初步探索阶段。
Visual CoT
为了应对上述挑战,Visual CoT提出了以下核心创新点:
1. 全面的数据集
- 规模宏大:包含438,000个视觉问答对,每个问答对都附有关键区域的边界框标注。
- 推理步骤详尽:98,000个问答对配备了逐步推理逻辑,为模型提供指导。
- 领域广泛:涵盖文本/文档、细粒度理解、图表、通用VQA和关系推理五大领域。
- 目标明确:助力模型精准聚焦相关区域,提升准确性和效率。
▲图1 | 视觉 CoT 数据集涵盖五个领域。©️【深蓝AI】编译
2. 多轮处理pipeline
Visual CoT通过以下方式实现了动态且人性化的推理
- 逐步聚焦于关键视觉区域。
- 整合原始图像与局部图像的信息。
- 生成可解释的中间推理步骤。
3. 评估基准
Visual CoT基准专注于评估以下能力
- 动态聚焦能力:识别图像中的关键区域。
- 推理能力:生成逻辑上连贯且通向正确答案的步骤。
- 效率:在计算资源和性能之间找到最佳平衡点。
Visual CoT的工作原理
▲图2 | Visual CoT MLLM框架使用标准模型而不做任何修改,是增强具有可视化 CoT 功能的 MLLM 的基准。 ©️【深蓝AI】编译
▲图3 | 带有详细推理步骤的数据示例。 ©️【深蓝AI】编译
Visual CoT框架包含以下核心步骤:
- 视觉采样器:根据边界框预测结果,识别并裁剪出最相关的图像区域。
- 视觉编码器:处理原始图像和局部裁剪后的图像。
- 语言模型集成:结合视觉标记和语言推理,生成准确且可解释的答案。
- 多轮推理:通过生成边界框和推理步骤,逐步优化关注区域。
训练流程
- 第一阶段:冻结视觉编码器和语言模型的权重,仅使用图像-文本对进行预训练。
- 第二阶段:利用Visual CoT数据集进行微调,释放所有参数以达到最佳性能。
实验结果与发现
研究人员针对VisCoT的视觉理解能力,在一系列多样化的多模态任务中进行了全面评估。图4直观地展示了在Visual CoT基准测试中,VisCoT所取得的显著进步。具体而言,与LLaVA-1.5模型相比,所提出的模型在Visual CoT基准上展现出了尤为突出的提升,这一优势在文档/文本处理任务以及涉及高分辨率图像的场景中尤为明显。
▲图4 | Visual CoT在文档理解、细粒度推理和高分辨率图像任务中显著超越了基线模型 ©️【深蓝AI】编译
以SROIE数据集为例,该数据集专注于从收据中精准提取关键信息。在此场景下,采用所提模型并融入CoT流程的方案,相较于未采用CoT流程的标准处理流程,其性能实现了高达8倍的提升。这一卓越成果有力地验证了Visual CoT在强化视觉与文本信息解析能力方面的非凡效力。
以下呈现的是VisCOT的可视化实例,其中,模型自动生成的边界框以红色标记,代表Ground Truth的边界框以蓝色框标记,直观地显示了VisCOT在精准捕捉并识别那些细小而关键区域方面的卓越效能。
▲图5 | VisCoT 的可视化结果。©️【深蓝AI】编译
应用前景与未来展望
模拟人类推理
Visual CoT模仿人类的认知过程,动态聚焦于相关区域并生成详细的推理步骤。这为以下应用场景带来突破:
- 医学影像:精准识别扫描中的关键区域。
- 自动驾驶:动态解读复杂交通场景。
- 交互系统:提供更具解释力的AI助手。
推动基准发展
Visual CoT数据集和基准为多模态模型的进一步创新设立了新的标杆,将促进以下方向的发展:
- 细粒度推理能力的提升。
- 动态多轮注意力的应用。
- 可解释性AI的实现。
总结
Visual CoT通过引入链式思维推理和动态视觉聚焦机制,显著增强了多模态语言模型的可解释性和性能。它不仅弥合了视觉与语言推理之间的鸿沟,更为下一代高效、可解释的AI系统奠定了坚实的基础。AI的未来在于"看、推理、解释",而Visual CoT无疑让我们朝着这一目标迈出了坚实的一步。