Visual CoT:解锁视觉链式思维推理的潜能

引言
随着GPT-4、Gemini等大型语言模型(LLM)取得的显著成就,学术界正致力于将这些模型的卓越能力拓展至视觉理解领域,从而催生了LLaVA、SPHINX、Qwen VL等一系列多模态大型语言模型的涌现。这些模型能够从输入图像中提取视觉特征,但在处理复杂的视觉细节方面仍显力不从心,与人类能够动态聚焦于特定图像区域的能力相去甚远。

尽管CLIP、EVA2-CLIP、InternVL等多模态大型语言模型(MLLM)采用固定粒度的方法来处理图像,但模拟人类的推理过程却要求识别并放大关键图像区域,以便动态地调整上下文信息。目前,MLLM严重依赖文本数据,在处理多回合动态视觉输入和进行可解释推理方面存在明显不足。此外,现有的视觉问答(VQA)数据集缺乏中间视觉思维链(CoT)的监督信息,同时流行的MLLM框架又过度依赖于静态图像上下文输入,这无疑进一步加剧了这一挑战。

在此背景下,Visual CoT应运而生,它引入了一个包含438,000个样本的视觉CoT数据集。在这个数据集中,每个视觉问答对都配有一个边界框(Bounding Box),用以突出显示回答问题所必需的关键图像区域。该数据集还包含了98,000个问答对,这些问答对附带了详细的推理步骤,旨在逻辑地引导MLLM进行推理。Visual CoT通过聚焦于关键区域并提供逐步的可解释性,从而增强了视觉CoT推理的能力。

©️【深蓝AI】编译

论⽂题目:Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning

论文作者:Hao Shao, Shengju Qian, Xiao Han, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, Hongsheng Li

论文地址:https://arxiv.org/abs/2403.16999

多模态推理面临的挑战

MLLM在图像描述、视觉问答(VQA)、目标检测等任务中展现出了卓越的性能,但仍面临以下挑战:

1. 缺乏可解释性:现有模型大多采用黑箱设计,使得其推理过程难以被理解和解释。

2. 复杂视觉输入处理能力不足:在处理高分辨率图像或包含微小细节的区域时,模型往往容易出错或效率低下。

3. 静态处理方式限制了灵活性:大多数模型以固定的粒度处理视觉上下文,忽视了动态聚焦所带来的优势。

4. 链式思维(CoT)的潜力尚未得到充分挖掘:尽管CoT提示已在语言模型的文本推理中取得了显著成效,但在视觉领域的应用仍处于初步探索阶段。

Visual CoT

为了应对上述挑战,Visual CoT提出了以下核心创新点:

1. 全面的数据集

  • 规模宏大:包含438,000个视觉问答对,每个问答对都附有关键区域的边界框标注。
  • 推理步骤详尽:98,000个问答对配备了逐步推理逻辑,为模型提供指导。
  • 领域广泛:涵盖文本/文档、细粒度理解、图表、通用VQA和关系推理五大领域。
  • 目标明确:助力模型精准聚焦相关区域,提升准确性和效率。

▲图1 | 视觉 CoT 数据集涵盖五个领域。©️【深蓝AI】编译

2. 多轮处理pipeline

Visual CoT通过以下方式实现了动态且人性化的推理

  • 逐步聚焦于关键视觉区域。
  • 整合原始图像与局部图像的信息。
  • 生成可解释的中间推理步骤。

3. 评估基准

Visual CoT基准专注于评估以下能力

  • 动态聚焦能力:识别图像中的关键区域。
  • 推理能力:生成逻辑上连贯且通向正确答案的步骤。
  • 效率:在计算资源和性能之间找到最佳平衡点。

Visual CoT的工作原理

▲图2 | Visual CoT MLLM框架使用标准模型而不做任何修改,是增强具有可视化 CoT 功能的 MLLM 的基准。 ©️【深蓝AI】编译

▲图3 | 带有详细推理步骤的数据示例。 ©️【深蓝AI】编译

Visual CoT框架包含以下核心步骤:

  1. 视觉采样器:根据边界框预测结果,识别并裁剪出最相关的图像区域。
  2. 视觉编码器:处理原始图像和局部裁剪后的图像。
  3. 语言模型集成:结合视觉标记和语言推理,生成准确且可解释的答案。
  4. 多轮推理:通过生成边界框和推理步骤,逐步优化关注区域。

训练流程

  • 第一阶段:冻结视觉编码器和语言模型的权重,仅使用图像-文本对进行预训练。
  • 第二阶段:利用Visual CoT数据集进行微调,释放所有参数以达到最佳性能。

实验结果与发现

研究人员针对VisCoT的视觉理解能力,在一系列多样化的多模态任务中进行了全面评估。图4直观地展示了在Visual CoT基准测试中,VisCoT所取得的显著进步。具体而言,与LLaVA-1.5模型相比,所提出的模型在Visual CoT基准上展现出了尤为突出的提升,这一优势在文档/文本处理任务以及涉及高分辨率图像的场景中尤为明显。

▲图4 | Visual CoT在文档理解、细粒度推理和高分辨率图像任务中显著超越了基线模型 ©️【深蓝AI】编译

以SROIE数据集为例,该数据集专注于从收据中精准提取关键信息。在此场景下,采用所提模型并融入CoT流程的方案,相较于未采用CoT流程的标准处理流程,其性能实现了高达8倍的提升。这一卓越成果有力地验证了Visual CoT在强化视觉与文本信息解析能力方面的非凡效力。

以下呈现的是VisCOT的可视化实例,其中,模型自动生成的边界框以红色标记,代表Ground Truth的边界框以蓝色框标记,直观地显示了VisCOT在精准捕捉并识别那些细小而关键区域方面的卓越效能。

▲图5 | VisCoT 的可视化结果。©️【深蓝AI】编译

应用前景与未来展望

模拟人类推理

Visual CoT模仿人类的认知过程,动态聚焦于相关区域并生成详细的推理步骤。这为以下应用场景带来突破:

  • 医学影像:精准识别扫描中的关键区域。
  • 自动驾驶:动态解读复杂交通场景。
  • 交互系统:提供更具解释力的AI助手。

推动基准发展

Visual CoT数据集和基准为多模态模型的进一步创新设立了新的标杆,将促进以下方向的发展:

  • 细粒度推理能力的提升。
  • 动态多轮注意力的应用。
  • 可解释性AI的实现。

总结

Visual CoT通过引入链式思维推理和动态视觉聚焦机制,显著增强了多模态语言模型的可解释性和性能。它不仅弥合了视觉与语言推理之间的鸿沟,更为下一代高效、可解释的AI系统奠定了坚实的基础。AI的未来在于"看、推理、解释",而Visual CoT无疑让我们朝着这一目标迈出了坚实的一步。

相关推荐
小众AI17 分钟前
garak - 开源的 LLMs 漏洞扫描工具
人工智能·开源·ai编程
Power202466640 分钟前
NLP论文速读|基于主动检索的渐进多模态推理
人工智能·深度学习·机器学习·自然语言处理·nlp
龙虾在剥我的壳1 小时前
机器人手眼标定
计算机视觉·机器人
汀沿河1 小时前
基于Swarm的大模型应用:一个天气助手
开发语言·人工智能·python
KeyPan1 小时前
【数据结构与算法:八、排序】
开发语言·数据结构·人工智能·后端·算法·排序算法·scala
LIKEYYLL1 小时前
【年前学SHU分享】:教育发展、人工智能、电子通信、能源
人工智能
leisigoyle1 小时前
第五届电网系统与绿色能源国际学术会议(PGSGE 2025)
大数据·人工智能·能源
TGITCIC1 小时前
AI 将在今年获得“永久记忆”,2028美国会耗尽能源储备
人工智能·aigc·能源·ai新闻·ai最新事·ai奇闻·ai动态
青春~飞鸟1 小时前
相机镜头竞品选型的主要参考参数和选型方法
图像处理·计算机视觉
研一计算机小白一枚2 小时前
Deep blind super-resolution for hyperspectral images_译文
人工智能·深度学习·计算机视觉