【VLM】HopChain视觉语言推理多跳数据合成框架

note

【数据合成方案进展】讲得是多跳视觉语言推理数据合成框架，用于应对视觉语言模型（VLMs）在长思维链（CoT）推理中的错误累积以及大多数 RLVR 视觉语言训练数据缺乏全程依赖视觉证据的复杂推理链的问题。工作在《HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning》，https://arxiv.org/pdf/2603.17024，看核心几个点：
- 1）数据定义：VLMs 以图像 + 文本查询为输入，生成思维链并输出可验证答案；
- 2）多跳数据合成框架步骤：step1.类别识别：使用 Qwen3-VL-235B-A22B-Thinking 枚举图像中的语义类别（如汽车、人），生成类别列表;->step2.实例分割：通过 SAM3 对识别出的类别进行实例分割，生成分割掩码与边界框，得到带空间定位的独立实例；->step3.多跳查询生成：对 3-6 个实例组合，通过 Qwen3-VL-235B-A22B-Thinking 生成多跳查询，施加多项约束（如包含所有实例、仅用视觉属性描述、数值答案），避免语言捷径；->step4.真值标注与难度校准：4 名标注员独立解答查询，仅保留答案一致的样本；用较弱模型评估查询，移除准确率 100% 的简单查询。
这篇论文通过提出HopChain框架，成功解决了VLMs在长链式推理任务中的弱点。HopChain通过合成多跳视觉语言推理数据，增强了模型在细粒度视觉语言推理任务中的表现。实验结果表明，多跳数据在20个基准测试上取得了显著的进步，且这些进步具有广泛的泛化能力。未来的工作将进一步减少对实例分割的依赖，以处理更多没有可检测对象的图像。

一、研究背景

研究问题：这篇文章要解决的问题是如何通过多跳数据合成来增强视觉语言模型（VLMs）在细粒度视觉语言推理任务中的表现。尽管VLMs在多模态基准测试中取得了显著进展，但在长链式推理（CoT）任务中仍存在困难，这些任务要求模型仔细关注图像中的多个视觉元素及其关系。
研究难点：该问题的研究难点包括：VLMs在长CoT推理过程中表现出多样化的失败模式，包括感知、推理、知识和幻觉错误，这些错误会在中间步骤中累积。此外，现有的视觉语言训练数据大多不涉及复杂的推理链，导致这些弱点在训练过程中未被充分暴露。
相关工作：该问题的研究相关工作包括：LLaVA系列工作通过将视觉特征投影到语言模型的嵌入空间来引入视觉指令调优范式；DeepSeek-R1展示了纯RL可以诱导强链式推理；最近的研究还表明，多模态推理依赖于细粒度的观察和重复的图像检查。

二、HopChain框架

这篇论文提出了HopChain，一个可扩展的框架，用于合成多跳视觉语言推理数据，以改进VLMs的可验证奖励强化学习（RLVR）训练。具体来说：

1、多跳视觉语言推理定义：首先，定义了目标多跳查询的结构。多跳查询结合了感知级跳变和实例链跳变两种类型。感知级跳变在不同感知级别之间切换，而实例链跳变沿显式依赖链移动。每个查询必须满足三个结构条件：必须是多跳查询、结合两种跳变类型、并且跳变形成一个逻辑依赖链。

2、数据合成管道：HopChain采用了一个可扩展的四阶段数据合成管道：

类别识别：使用Qwen3-VL-235B-A22B-Thinking识别图像中的语义类别。
实例分割：使用SAM3对识别的类别进行实例分割，生成具有空间定位的个体实例。
多跳查询生成：使用Qwen3-VL-235B-A22B-Thinking构建多跳查询，每个查询组合3-6个实例。
人工验证：多个标注者独立解决每个查询，只有最终数值答案相同的查询才保留为有效训练样本。

3、软自适应策略优化（SAPO）：在多跳数据上应用RLVR，使用SAPO算法进行训练。SAPO通过温度控制的软门替换硬裁剪，优化以下目标：

J ( θ ) = E ( I , q , a ) ∼ D , { o i } i = 1 G ∼ π old ( ⋅ ∣ I , q ) $1 G ∑ i = 1 G 1 ∣ o i ∣ ∑ t = 1 ∣ o i ∣ f i , t ( r i , t ( θ ) ) A \^ i , t$ , \mathcal{J}(\theta) = \mathbb{E}{(I, q, a) \sim \mathcal{D}, \{o_i\}{i=1}^G \sim \pi_{\text{old}}(\cdot \mid I, q)} \left $\\frac{1}{G} \\sum_{i=1}\^G \\frac{1}{\|o_i\|} \\sum_{t=1}\^{\|o_i\|} f_{i,t} \\left( r_{i,t}(\\theta) \\right) \\hat{A}_{i,t} \\right$ , J(θ)=E(I,q,a)∼D,{oi}i=1G∼πold(⋅∣I,q) G1i=1∑G∣oi∣1t=1∑∣oi∣fi,t(ri,t(θ))A^i,t ,

其中， r i , t ( θ ) r_{i,t}(\theta) ri,t(θ) 表示策略 π \pi π 在状态 ( I , q , o i < t ) (I, q, o_{i<t}) (I,q,oi<t) 下的响应， A ^ i , t \hat{A}{i,t} A^i,t 是期望奖励的归一化值， f i , t ( x ) f{i,t}(x) fi,t(x) 是一个 sigmoid 函数， τ i , t \tau_{i,t} τi,t 根据正负令牌的温度进行调节。

三、实验设计

数据收集：从24个基准测试中评估两个模型Qwen3.5-35B-A3B和Qwen3.5-397B-A17B。这些基准测试涵盖STEM和拼图、通用VQA、文本识别和文档理解以及视频理解四个类别。
实验设置：在三种设置下评估模型：原始RLVR数据、仅原始RLVR数据和原始RLVR数据加上合成的多跳数据。每个模型在每个设置下运行1000个梯度步，使用mini-batch大小为64或128的随机梯度下降（SGD）优化器。
图像过滤：在多跳查询合成之前，过滤掉低质量的图像。使用Qwen3-VL-235B-A22B-Thinking和SAM3进行初始筛选，然后使用Qwen3-VL-30B-A3B-Thinking进行监督微调，最后使用Qwen3-VL-235B-A22B-Thinking进行二次筛选。

四、结果分析

主要基准测试结果：在24个基准测试中，添加多跳数据后，两个模型在20个基准测试上取得了进步。具体来说，Qwen3.5-35B-A3B在STEM和拼图、通用VQA、文本识别和文档理解以及视频理解类别中分别提高了6个、6个、3个和5个基准测试的成绩。Qwen3.5-397B-A17B在这些类别中也取得了类似的广泛进步。
跳变结构分析：比较了单跳、半多跳和多跳查询的效果。结果表明，多跳查询在所有五个代表性基准测试中的平均得分最高，其次是半多跳查询，单跳查询得分最低。这表明保留较长的跨跳依赖关系对性能提升至关重要。
推理长度分析：随着响应链的增长，多跳查询的优势仍然存在。在Qwen3.5-397B-A17B上，按响应标记数量分组的优势在超长响应区间内更加明显。
难度覆盖范围：超过一半的多跳查询属于部分正确区间，分布跨越多个成功桶。这表明合成的多跳数据覆盖了广泛的难度范围，可以为不同规模和能力的模型提供有用的RLVR训练信号。
错误类型分析：多跳增强不仅修复了单一的窄错误类型，而且在广泛的错误类型上取得了进步。错误类型的分布与原始错误分布密切相关，表明多跳数据在长CoT视觉语言推理中的广泛改进。

Reference

$1$ 大模型推理数据合成前沿进展：HopChain视觉语言推理多跳数据合成框架