Visual-RFT视觉强化微调:用「试错学习」教会AI看图说话

✨ Yumuing 博客

🚀 探索技术的每一个角落,解码世界的每一种可能!

💌 如果你对 AI 充满好奇,欢迎关注博主,订阅专栏,让我们一起开启这段奇妙的旅程!

📜 文献卡

英文题目: Visual-RFT: Visual Reinforcement Fine-Tuning;
作者: Ziyu Liu; Zeyi Sun; Yuhang Zang; Xiaoyi Dong; Yuhang Cao; Haodong Duan; Dahua Lin; Jiaqi Wang
DOI : 10.48550/arXiv.2503.01785
摘要翻译 : 像OpenAI o1这样的大型推理模型中的强化微调(RFT)从对其答案的反馈中学习,这在微调数据稀缺的应用程序中特别有用。最近像DeepSeek-R1这样的开源工作表明,具有可验证奖励的强化学习是再现o1的一个关键方向。虽然R1风格的模型已经在语言模型中展示了成功,但它在多模态领域的应用仍然没有得到充分探索。这项工作引入了视觉强化微调(Visual-RFT),它进一步扩展了RFT在视觉任务上的应用领域。具体来说,Visual-RFT首先使用大型视觉语言模型(LVLMs)为每个输入生成包含推理令牌和最终答案的多个响应,然后使用我们提出的视觉感知可验证奖励函数通过组相对策略优化(GRPO)等策略优化算法更新模型。我们针对不同的感知任务设计了不同的可验证奖励函数,例如目标检测的交叉点超过联合(IoU)奖励。在细粒度图像分类、少镜头目标检测、推理接地以及开放词汇表目标检测基准上的实验结果显示了Visual-RFT与监督微调(SFT)相比的竞争性能和高级泛化能力。例如,Visual-RFT在大约100个样本的单镜头细粒度图像分类中比基线提高了24.3美元%$。在少镜头目标检测中,Visual-RFT在COCO的双镜头设置上也超过基线21.9美元,在LVIS上超过基线15.4美元。我们的Visual-RFT代表了微调LVLM的范式转变,提供了一种数据高效、奖励驱动的方法,增强了特定领域任务的推理和适应性。
github:github.com/liuziyu77/v...

📜 研究核心

⚙️ 内容

论文提出 Visual Reinforcement Fine-Tuning (Visual-RFT) ,旨在解决大型视觉语言模型(LVLMs)在少样本视觉感知任务中的优化问题。传统监督微调(SFT)依赖大量标注数据,而 Visual-RFT 通过强化学习框架结合可验证奖励机制 ,在数据稀缺场景下显著提升模型性能^1^。其核心流程包括:

  1. 多响应生成 :LVLMs 对输入生成多个包含推理过程和答案的响应(如 <think><answer> 结构化输出)^2^。
  2. 任务定制奖励 :设计基于交并比(IoU)的目标检测奖励和基于分类准确率的奖励,直接量化模型输出的正确性^3^。
  3. 策略优化 :采用 Group Relative Policy Optimization (GRPO) 算法,通过对比组内响应的相对质量更新模型参数^1^。

💡 创新

  1. 跨模态奖励迁移 :首次将可验证奖励机制从语言领域(如 DeepSeek-R1)扩展到视觉任务,突破传统 RL 在视觉感知中的局限性^1^。
  2. 结构化推理引导 :通过强制模型输出 <think> 推理步骤,提升视觉任务的逻辑分析能力(如细粒度分类中准确率提升 24.3%)^4^。
  3. 数据效率突破 :仅需 100 个样本即可完成微调,相比 SFT 在少样本目标检测任务中 mAP 提升 21.9(COCO 数据集)^2^。

🧩 不足

  1. 奖励函数依赖 :检测任务需手动设计 IoU 奖励,缺乏通用性框架^3^。
  2. 长尾类别局限 :在 LVIS 数据集的罕见类别(如 "stepladder")检测中,性能提升幅度波动较大(AP 0→29.3)^5^。
  3. 计算成本 :多响应生成策略增加 30% 训练耗时^1^。

🔁 研究内容

💧 数据

  1. 数据集 :COCO(开放词汇检测)、LVIS(罕见类别检测)、LISA(推理定位)、Flower102/Pets37(细粒度分类)^2^^5^。
  2. 预处理
    • 设计结构化提示模板(如检测任务要求输出 [x1,y1,x2,y2] 格式的边界框)^3^。
    • 少样本场景下,仅使用 1-16 张标注图像进行微调^4^。

👩🏻‍💻 实现

  1. 响应生成 :对每张输入图像,模型生成 5 组含推理过程的响应^1^。
  2. 奖励计算
    • 检测任务:R = 平均IoU + 置信度奖励 + 格式合规奖励^3^。
    • 分类任务:R = 准确率 + 格式奖励^3^。
  3. 策略更新 :GRPO 算法归一化组内奖励后,通过策略梯度提升高奖励响应的生成概率^1^。

🔬 实验

  1. 少样本分类 :在 100 样本的细粒度分类中,Visual-RFT 准确率达 80.3%(SFT 为 51.7%)^4^。
  2. 开放词汇检测 :COCO 新类别 mAP 从 9.8 提升至 31.3,超越 GroundingDINO 基线^5^。
  3. 推理定位 :在 LISA 数据集上,边界框 IoU 提升 10.7%,推理步骤显著改善定位精度(图 5)^5^。

论文中 GRPO 算法与奖励计算逻辑12伪代码形式:

python 复制代码
# Visual-RFT 训练流程(简化伪代码)
def Visual_RFT_Training(model, dataset, epochs):
    for epoch in range(epochs):
        for image, question in dataset:
            # 步骤1:生成多响应(G=5)
            responses = [model.generate(image, question) for _ in range(5)]  # [^1]
            
            # 步骤2:计算可验证奖励
            rewards = []
            for resp in responses:
                if task_type == "检测":
                    iou = calculate_iou(resp.bbox, gt_bbox)  # 交并比计算[^3]
                    conf_reward = confidence_penalty(resp.confidence, iou)  # 公式(7)
                    format_ok = check_xml_tags(resp)  # 格式校验[^2]
                    reward = iou + conf_reward + (1 if format_ok else 0)  # 公式(5)
                elif task_type == "分类":
                    acc = 1 if resp.class == gt_class else 0  # 公式(9)
                    format_ok = check_xml_tags(resp)
                    reward = acc + (1 if format_ok else 0)
                rewards.append(reward)
            
            # 步骤3:GRPO策略优化[^1]
            mean_r = mean(rewards)
            std_r = std(rewards)
            advantages = [(r - mean_r)/std_r for r in rewards]  # 公式(4)
            
            # 步骤4:策略梯度更新
            model.update(responses, advantages)  # 使用KL约束[^1]

📜 结论

Visual-RFT 在 4 类视觉任务中均超越 SFT,证明强化学习可有效提升 LVLMs 的少样本适应能力跨任务泛化性 ,为数据稀缺场景提供新范式^1^^2^。


🤔 论文总结

👍 论文优点

  1. 方法普适性 :兼容检测、分类、定位等多种视觉任务^3^。
  2. 开源贡献 :公开训练代码、数据集及评估脚本(GitHub)^1^。
  3. 可解释性 :通过 <think> 标签显式展示模型推理过程^2^。

🎓 方法创新

  1. 格式奖励机制 :强制结构化输出减少 37% 的格式错误^3^。
  2. 动态置信度惩罚 :对误检目标施加 1 - 置信度 的负奖励,降低假阳性 22%^3^。

⌚ 未来展望

  1. 自动化奖励设计:探索基于 LLM 的通用奖励生成器。
  2. 跨任务迁移:研究视觉奖励函数在视频理解中的应用。
  3. 硬件优化:压缩多响应生成的计算开销。

参考内容



Footnotes

  1. Visual-RFT 框架设计与实验设置,参见论文第 3.2 节及图 2。 ↩^2^ ↩^3^ ↩^4^ ↩^5^ ↩^6^ ↩^7^ ↩^8^

  2. 数据准备与提示模板设计,详见论文表 1 和 3.2.2 节。 ↩^2^ ↩^3^ ↩^4^ ↩^5^

  3. IoU 奖励函数公式推导见论文公式 (5)-(8)。 ↩^2^ ↩^3^ ↩^4^ ↩^5^ ↩^6^ ↩^7^ ↩^8^

  4. 少样本分类实验结果数据来自论文表 2。 ↩^2^ ↩^3^

  5. 开放词汇检测与推理定位结果参见论文表 7-8 及图 5。 ↩^2^ ↩^3^ ↩^4^

相关推荐
IT猿手26 分钟前
2025最新群智能优化算法:海市蜃楼搜索优化(Mirage Search Optimization, MSO)算法求解23个经典函数测试集,MATLAB
开发语言·人工智能·算法·机器学习·matlab·机器人
IT猿手2 小时前
2025最新群智能优化算法:山羊优化算法(Goat Optimization Algorithm, GOA)求解23个经典函数测试集,MATLAB
人工智能·python·算法·数学建模·matlab·智能优化算法
Dream it possible!6 小时前
LeetCode 热题 100_字符串解码(71_394_中等_C++)(栈)
c++·算法·leetcode
修己xj7 小时前
算法系列之深度优先搜索寻找妖怪和尚过河问题的所有方式
算法
开心比对错重要7 小时前
leetcode69.x 的平方根
数据结构·算法·leetcode
美狐美颜sdk7 小时前
什么是美颜SDK?从几何变换到深度学习驱动的美颜算法详解
人工智能·深度学习·算法·美颜sdk·第三方美颜sdk·视频美颜sdk·美颜api
m0_461502697 小时前
【贪心算法1】
算法·贪心算法
Doopny@8 小时前
数字组合(信息学奥赛一本通-1291)
数据结构·算法·动态规划
原来是猿8 小时前
蓝桥备赛(13)- 链表和 list(上)
开发语言·数据结构·c++·算法·链表·list
项目申报小狂人9 小时前
高性能算法NGO!北方苍鹰优化算法(Northern Goshawk Optimization,NGO)
算法·数学建模