【论文笔记】【强化微调】Pixel Reasoner：早期 tool call 的调用

[2505.15966] Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning

1. 引述

当场景元素比较丰富时，这篇论文提出的方法会调用工具，聚焦于自己感兴趣的那部分。我读这篇论文的目的，是想获得一点对于 tool call 的使用启发，以便应用于我自己的工作中。

以上是该论文方法的一个示例。其实这种静态工具调用已经不新鲜了。在之前我关于强化微调综述的博客中可以知道，该论文属于 Stage-1

【论文笔记】【强化微调】综述 - Think With Image-CSDN博客

说不定后续写本子的时候需要借鉴这篇论文遇到的问题：

操作掌握困难 ：现有 VLM 在执行预定义视觉操作方面零样本能力有限，必须通过精细的指令微调，建立起基本的操作能力，并保留模型的自我纠错能力，以为后续 RL 阶段的"试错学习"做准备。
能力失衡陷阱（Learning Trap）：即使模型通过微调学会了视觉操作，其在文本推理方面的熟练度远超像素空间，导致模型在训练中更倾向于回避视觉操作。一方面，视觉操作初期更容易失败导致负反馈；另一方面，很多训练样本本身不强依赖视觉操作，模型因此"顺理成章"地选择跳过该技能。这种组合使得像素空间推理发展受阻，模型提前放弃对这项新能力的探索。

论文解决问题的方式是构建一个数据集，以及设置一个新的强化微调的奖励。

论文从已有的视觉任务数据集（SA1B、FineWeb、STARQA）中构建了一个子数据集用于微调。

而为了让模型知道使用工具，论文利用为每条训练样本准备了一个 "视觉目标"，那种很小的视觉目标，不放大仔细看就看不清楚的那种。

构建的方式是使用 GPT-4o 给出一套范式：你应该先看哪里，调用哪个视觉操作，然后再怎么分析，最后得出答案。

然而，由于 4o 太强，所以在用 4o 构建数据集的时候，4o 可能都认为一些任务不需要调用工具。为了不让 GPT-4o 随意发挥，论文引导它按照一个"固定套路"生成每个推理过程。

如上图所示：

(a) 部分，用户提问这是什么类型的餐馆，4o 在执行的放大操作后，回答说："我没在放大的图中看到餐馆，从原图来看我觉得是卖茶的"；GPT-4o 没有使用视觉操作的结果做判断 ，而是回退到了全图印象 + 语言推理，这就产生了所谓的 bypassing trajectory（绕过轨迹），对训练无效甚至有害。
(b) 部分，模板轨迹化合成数据。先全图概括，再准确放大参考视觉线索所在区域，随后在放大的局部区域内分析标识，最后据此回答："这是卖茶的餐馆。"
(c) 部分，自我纠错轨迹。如果在放大局部区域分析了但没有获得有用的信息，就认为放大出错了，于是重新 zoom 并再次分析得到结果。

Single-pass 轨迹：
- 简单直接的推理轨迹：
  
  全图分析 → zoom-in → 分析细节 → 回答
- 用于教模型"如何正常使用视觉操作"。
Error-induced Self-Correction Trajectories（错误诱导的自我纠错轨迹）：
- 故意设计"先 zoom 错了"，然后再 zoom 对了的轨迹；
- 用于教模型如何识别错误操作并修正。
Textual Reasoning Trajectories（纯文本推理轨迹）：
- 对于不需要细粒度视觉分析的视觉语言问题，仍保留它们的纯文本推理过程；
- 这样能防止模型"滥用视觉操作"，实现 按需调用。

模型初期不会用视觉操作；于是一用就容易出错，从而得到"错误"奖励信号（negative feedback）。相比之下，文本推理正确率高，反馈好，于是久而久之模型就开始回避视觉操作。

同时，数据集中很多问题其实不一定非得用视觉操作， 这给了模型一个"捷径"：直接用文字答题就行，模型于是倾向于默认使用更可靠的文本推理，忽视了视觉路径。

于是，论文在强化微调过程中，设置了奖励来鼓励模型探索，这个奖励叫做好奇心奖励。

传统 RL 只给"对答案"的外部奖励（extrinsic reward），比如答对得 1 分，但好奇心奖励关注的是：**你有没有主动尝试新的操作？**即使没答对，也因为你勇敢尝试视觉操作而给你鼓励（奖励）。

如果模型不断探索，是可以一直获得好奇心奖励，但是效率就显著下降了，这也不是我们想要的。为了平衡探索与效率，论文设计了两个约束：

The first constraint concerns the Rate of Pixel-space Reasoning (RaPR)

即对每个查询 xxx，其所有采样响应中使用像素空间操作的概率（平均值）不能低于预设阈值 H。

The second constraint imposes an upper bound N on the number of visual operations used in any individual response.

然而有约束不太方便直接训练，因此论文基于前人的理论（受限强化学习），将约束转化为奖励函数：

新奖励包含三部分：

其中：

这个奖励函数鼓励模型使用工具，使用一次工具可以获得的奖励，但是使用次数过多，工具使用率 PaPR 提升，每次使用工具的奖励就少了，直到衰减到 0

这个奖励函数惩罚多次使用工具（超过）