技术栈
reasoning
PLUS_WAVE
6 小时前
学习
·
语言模型
·
大模型
·
cot
·
vlm
·
推理模型
·
reasoning
CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning 学习笔记
当前 VLMs 通过对齐视觉输入和语言输出训练,虽然整体表现好,但在需要细致视觉推理的任务上容易出错,比如无法正确识别图片中的细节内容。这是因为现有模型习惯直接给出结论,而缺乏中间推理步骤。