✨ Yumuing 博客
🚀 探索技术的每一个角落,解码世界的每一种可能!
💌 如果你对 AI 充满好奇,欢迎关注博主,订阅专栏,让我们一起开启这段奇妙的旅程!
📜 文献卡
英文题目: Visual-RFT: Visual Reinforcement Fine-Tuning; |
---|
作者: Ziyu Liu; Zeyi Sun; Yuhang Zang; Xiaoyi Dong; Yuhang Cao; Haodong Duan; Dahua Lin; Jiaqi Wang |
DOI : 10.48550/arXiv.2503.01785 |
摘要翻译 : 像OpenAI o1这样的大型推理模型中的强化微调(RFT)从对其答案的反馈中学习,这在微调数据稀缺的应用程序中特别有用。最近像DeepSeek-R1这样的开源工作表明,具有可验证奖励的强化学习是再现o1的一个关键方向。虽然R1风格的模型已经在语言模型中展示了成功,但它在多模态领域的应用仍然没有得到充分探索。这项工作引入了视觉强化微调(Visual-RFT),它进一步扩展了RFT在视觉任务上的应用领域。具体来说,Visual-RFT首先使用大型视觉语言模型(LVLMs)为每个输入生成包含推理令牌和最终答案的多个响应,然后使用我们提出的视觉感知可验证奖励函数通过组相对策略优化(GRPO)等策略优化算法更新模型。我们针对不同的感知任务设计了不同的可验证奖励函数,例如目标检测的交叉点超过联合(IoU)奖励。在细粒度图像分类、少镜头目标检测、推理接地以及开放词汇表目标检测基准上的实验结果显示了Visual-RFT与监督微调(SFT)相比的竞争性能和高级泛化能力。例如,Visual-RFT在大约100个样本的单镜头细粒度图像分类中比基线提高了24.3美元%$。在少镜头目标检测中,Visual-RFT在COCO的双镜头设置上也超过基线21.9美元,在LVIS上超过基线15.4美元。我们的Visual-RFT代表了微调LVLM的范式转变,提供了一种数据高效、奖励驱动的方法,增强了特定领域任务的推理和适应性。 |
github:github.com/liuziyu77/v... |
📜 研究核心
⚙️ 内容
论文提出 Visual Reinforcement Fine-Tuning (Visual-RFT) ,旨在解决大型视觉语言模型(LVLMs)在少样本视觉感知任务中的优化问题。传统监督微调(SFT)依赖大量标注数据,而 Visual-RFT 通过强化学习框架结合可验证奖励机制 ,在数据稀缺场景下显著提升模型性能^1^。其核心流程包括:
- 多响应生成 :LVLMs 对输入生成多个包含推理过程和答案的响应(如
<think>
和<answer>
结构化输出)^2^。 - 任务定制奖励 :设计基于交并比(IoU)的目标检测奖励和基于分类准确率的奖励,直接量化模型输出的正确性^3^。
- 策略优化 :采用 Group Relative Policy Optimization (GRPO) 算法,通过对比组内响应的相对质量更新模型参数^1^。
💡 创新
- 跨模态奖励迁移 :首次将可验证奖励机制从语言领域(如 DeepSeek-R1)扩展到视觉任务,突破传统 RL 在视觉感知中的局限性^1^。
- 结构化推理引导 :通过强制模型输出
<think>
推理步骤,提升视觉任务的逻辑分析能力(如细粒度分类中准确率提升 24.3%)^4^。 - 数据效率突破 :仅需 100 个样本即可完成微调,相比 SFT 在少样本目标检测任务中 mAP 提升 21.9(COCO 数据集)^2^。
🧩 不足
- 奖励函数依赖 :检测任务需手动设计 IoU 奖励,缺乏通用性框架^3^。
- 长尾类别局限 :在 LVIS 数据集的罕见类别(如 "stepladder")检测中,性能提升幅度波动较大(AP 0→29.3)^5^。
- 计算成本 :多响应生成策略增加 30% 训练耗时^1^。
🔁 研究内容
💧 数据
👩🏻💻 实现
🔬 实验
- 少样本分类 :在 100 样本的细粒度分类中,Visual-RFT 准确率达 80.3%(SFT 为 51.7%)^4^。
- 开放词汇检测 :COCO 新类别 mAP 从 9.8 提升至 31.3,超越 GroundingDINO 基线^5^。
- 推理定位 :在 LISA 数据集上,边界框 IoU 提升 10.7%,推理步骤显著改善定位精度(图 5)^5^。
论文中 GRPO 算法与奖励计算逻辑12伪代码形式:
python
# Visual-RFT 训练流程(简化伪代码)
def Visual_RFT_Training(model, dataset, epochs):
for epoch in range(epochs):
for image, question in dataset:
# 步骤1:生成多响应(G=5)
responses = [model.generate(image, question) for _ in range(5)] # [^1]
# 步骤2:计算可验证奖励
rewards = []
for resp in responses:
if task_type == "检测":
iou = calculate_iou(resp.bbox, gt_bbox) # 交并比计算[^3]
conf_reward = confidence_penalty(resp.confidence, iou) # 公式(7)
format_ok = check_xml_tags(resp) # 格式校验[^2]
reward = iou + conf_reward + (1 if format_ok else 0) # 公式(5)
elif task_type == "分类":
acc = 1 if resp.class == gt_class else 0 # 公式(9)
format_ok = check_xml_tags(resp)
reward = acc + (1 if format_ok else 0)
rewards.append(reward)
# 步骤3:GRPO策略优化[^1]
mean_r = mean(rewards)
std_r = std(rewards)
advantages = [(r - mean_r)/std_r for r in rewards] # 公式(4)
# 步骤4:策略梯度更新
model.update(responses, advantages) # 使用KL约束[^1]
📜 结论
Visual-RFT 在 4 类视觉任务中均超越 SFT,证明强化学习可有效提升 LVLMs 的少样本适应能力 与跨任务泛化性 ,为数据稀缺场景提供新范式^1^^2^。
🤔 论文总结
👍 论文优点
🎓 方法创新
⌚ 未来展望
- 自动化奖励设计:探索基于 LLM 的通用奖励生成器。
- 跨任务迁移:研究视觉奖励函数在视频理解中的应用。
- 硬件优化:压缩多响应生成的计算开销。
参考内容