AI多模态论文解读:LLaVA-CoT:让视觉语言模型逐步推理

本文作者:AIGCmagic社区 猫先生


一、简 介

LLaVA-CoT 引入了四个不同的阶段(摘要、标题、推理和结论),使模型能够独立进行系统化的多阶段推理,显著提高了在推理密集型任务上的准确性。

编译了LLaVA-CoT-100k数据集,整合了来自各种视觉问答来源的样本,并提供了结构化的推理注释,为训练提供了丰富的数据支持。

提出一种新的推理时阶段级束搜索方法,能够在每个阶段生成多个候选结果并选择最佳结果继续生成过程,实现了有效的推理时扩展。

通过监督微调,LLaVA-CoT不仅在广泛的推理基准上超越了其基础模型,还超过了更大且闭源的模型,如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。

图1. LLaVA-CoT和其他模型在六个多模态推理基准测试中的性能。尽管LLaVA-CoT是从Llama-3.2-11B-Vision-Instruct模型中微调而来的(该模型的平均分数最低),但它胜过了许多更大的开源模型,甚至一些闭源模型


二、引 言

大语言模型在推理能力上取得了显著进步,特别是在推理时间扩展方面,如OpenAI的o1所示。然而,当前的视觉语言模型(VLMs)往往难以进行系统和结构化的推理,尤其是在处理复杂的视觉问答任务时。

本文要解决的问题是如何提升视觉语言模型(VLMs)在处理复杂视觉问答任务时的系统性结构化推理能力。

现有的VLMs在推理过程中缺乏系统性和结构性 ,导致在复杂推理任务中频繁出现错误和幻觉输出;如何有效地进行推理时间扩展,以应对更复杂的任务和场景。

图2. 基线模型与LLaVA-CoT的比较。如图所示,基线模型Llama-3.2-11B-Vision-Instruct在推理过程中出现了明显的缺陷,多次出现错误。相比之下,LLaVA-CoT首先概述问题,从图像中解释相关信息,然后逐步进行推理过程,并最终得出一个得到充分支持的结论


三、方法概述

LLaVA-CoT(Let Vision Language Models Reason Step-by-Step),一种旨在通过多阶段推理来增强视觉语言模型(VLM)系统性和结构性推理能力的新模型。

**(1)结构化推理阶段:**LLaVA-CoT将答案生成过程分解为四个结构化推理阶段:总结、标题、推理和结论。每个阶段都有其独特的作用:

  • **总结阶段:**模型提供问题的高层次总结,概述将要解决的问题的主要方面。

  • **标题阶段:**如果存在图像,模型提供与问题相关的视觉元素的简洁概述,帮助理解多模态输入。

  • **推理阶段:**基于初始总结,模型进行结构化和逻辑推理,得出初步答案。

  • **结论阶段:**模型综合前面的推理,生成最终答案。

(2)数据准备和模型训练: 为了训练LLaVA-CoT模型,作者构建了一个包含99k图像问答对的新数据集LLaVA-CoT-100k。该数据集通过使用GPT-4o生成详细的推理过程 ,并使用监督微调进行训练。具体步骤如下:

  • 使用GPT-4o生成问题和图像的总结、标题、推理和结论。

  • 过滤生成的数据以确保质量。

  • 选择Llama-3.2-11B-Vision-Instruct作为基础模型,并在LLaVA-CoT-100k数据集上进行全参数微调

图3. 生成LLaVA-CoT-100k数据集过程的流程。引导GPT-4o在各个阶段生成响应,并过滤其输出以确保质量

(3)推理时间扩展: 为了进一步在推理过程中增强模型的推理能力,作者提出了一种新的阶段级束搜索方法。该方法在每个推理阶段生成多个候选结果,并选择最佳结果以继续生成过程。具体步骤如下:

  • 在每个推理阶段随机采样N个响应。

  • 随机选择2个响应,让模型决定哪个更好,并保留较好的响应。

  • 重复上述步骤N-1次,保留最佳响应。

  • 重复上述过程,直到所有阶段都处理完毕。

图4. 推理方法的示意图。最佳N次搜索生成N个完整响应,并从中选择最佳一个;句子级波束搜索为每个句子生成多个候选选项,并从中选择最佳一个。相比之下,我们的阶段级波束搜索为每个推理阶段(例如,摘要、标题、推理和结论)生成候选项,并在每个阶段选择最佳选项。最佳N次搜索在粗略层面上操作,而句子级波束搜索过于细致,我们的方法实现了最优平衡并取得了最佳性能


四、实验细节

**数据收集:**作者从多个广泛使用的视觉问答数据集中收集了样本,包括ShareGPT4V、ChartQA、A-OKVQA、AI2D、GeoQA+、ScienceQA、DocVQA、PISC和CLEVR等。

**实验设计:**实验在六个广泛使用的多模态推理基准上进行,包括MMStar、MMBench、MMVet、MathVista、AI2D和HallusionBench。所有评估均使用VLMEvalKit进行,以确保公平性和可重复性。

**样本选择:**从每个数据集中选择了一定数量的问答对,总共99k个图像问答对。

**参数配置:**使用Llama recipes框架进行训练,具体超参数配置包括学习率1e-5,训练轮数3,批量大小4,使用快速内核,不使用验证等。


五、实验结果分析

**基准测试结果:**与基础模型相比,LLaVA-CoT在一般视觉问答、数学推理、科学视觉问答和幻觉控制任务上均表现出色,平均基准得分提高了6.9%。

消融研究:

  • LLaVA-CoT-100k数据集比直接使用原始数据集的问答对更有效。

  • 结构化标签对模型性能的提升至关重要,去除标签后模型性能显著下降。

  • 模型主要在需要系统性推理的任务上表现出改进,如实例推理、逻辑推理、数学和科学和技术。

**推理时间扩展:**阶段级束搜索方法在推理时间计算增加时表现出显著的有效性。随着候选响应数量的增加,模型性能持续提高。


推荐阅读

AI多模态核心架构五部曲:

AI多模态模型架构之模态编码器:图像编码、音频编码、视频编码

AI多模态模型架构之输入投影器:LP、MLP和Cross-Attention

AI多模态模型架构之LLM主干(1):ChatGLM系列

AI多模态模型架构之LLM主干(2):Qwen系列

AI多模态模型架构之LLM主干(3):Llama系列

AI多模态模型架构之输出映射器:Output Projector

AI多模态模型架构之模态生成器:Modality Generator

AI多模态实战教程:

AI多模态教程:从0到1搭建VisualGLM图文大模型案例

AI多模态教程:Mini-InternVL1.5多模态大模型实践指南

AI多模态教程:Qwen-VL升级版多模态大模型实践指南

AI多模态实战教程:面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理


技术交流

加入**「AIGCmagic社区」** 群聊,一起交流讨论,涉及AI视频、AI绘画、数字人、多模态、 大模型****、传统****深度学习、自动驾驶 等多个不同方向,可私信或添加微信号:【lzz9527288】,备注不同方向邀请入群!

更多精彩内容,尽在**「**** AIGCmagic社区****」,**关注了解全栈式AIGC内容!

相关推荐
努力毕业的小土博^_^4 分钟前
【深度学习|学习笔记】 Generalized additive model广义可加模型(GAM)详解,附代码
人工智能·笔记·深度学习·神经网络·学习
天上路人34 分钟前
采用AI神经网络降噪算法的语言降噪消回音处理芯片NR2049-P
深度学习·神经网络·算法·硬件架构·音视频·实时音视频·可用性测试
小小鱼儿小小林43 分钟前
用AI制作黑神话悟空质感教程,3D西游记裸眼效果,西游人物跳出书本
人工智能·3d·ai画图
浪淘沙jkp44 分钟前
AI大模型学习二十、利用Dify+deepseekR1 使用知识库搭建初中英语学习智能客服机器人
人工智能·llm·embedding·agent·知识库·dify·deepseek
AndrewHZ3 小时前
【图像处理基石】什么是油画感?
图像处理·人工智能·算法·图像压缩·视频处理·超分辨率·去噪算法
Robot2514 小时前
「华为」人形机器人赛道投资首秀!
大数据·人工智能·科技·microsoft·华为·机器人
J先生x4 小时前
【IP101】图像处理进阶:从直方图均衡化到伽马变换,全面掌握图像增强技术
图像处理·人工智能·学习·算法·计算机视觉
Narutolxy6 小时前
大模型数据分析破局之路20250512
人工智能·chatgpt·数据分析
浊酒南街6 小时前
TensorFlow中数据集的创建
人工智能·tensorflow
2301_787552878 小时前
console-chat-gpt开源程序是用于 AI Chat API 的 Python CLI
人工智能·python·gpt·开源·自动化