LLaVA-CoT: Let Vision Language Models Reason Step-by-Step论文解读大型语言模型在推理能力方面展现了显著的进步,尤其是在推理时扩展方面,如OpenAI的o1模型所示。然而,当前的视觉-语言模型(VLMs)在进行系统性和结构性推理时往往面临挑战,特别是在处理复杂的视觉问答任务时。在这项工作中,我们介绍了LLaVA-CoT1,这是一种新型的VLM,旨在进行自主的多阶段推理。不同于链式思维提示,LLaVA-CoT独立地参与到摘要、视觉解释、逻辑推理和结论生成的连续阶段中。这种结构化的方法使得LLaVA-CoT在需要高度推理的任务上实现了明显的精度提升。为了实现这一目标,我们编译