【论文笔记】【强化微调】T-GRPO：对视频数据进行强化微调

Catching Star2025-06-23 21:03

tulerfeng/Video-R1: Video-R1: Reinforcing Video Reasoning in MLLMs [🔥the first paper to explore R1 for video]

1. 引述

在强化微调中，像 GRPO、DAPO 这样的方法都是对文本或者图片进行微调思考，所以这类微调方法不对时序信息做处理，因此无法很好的迁移到视频的强化微调中。

虽说目前有不少视频理解的工作，但是都没有加上强化微调的方法。也就是说，针对视频数据的强化微调很稀缺。

于是几个大学（港大+清华+中科大）联合搞了一个 Video-R1，提出 T-GRPO，实现对视频进行思考。

T-GRPO 的核心思路如上图。

相比 GRPO，T-GRPO 的创新在于使大模型微调的时候，能关注时序信息。做法就是将视频数据复制一份，并将这一份的视频帧打乱，打乱视频帧的视频就没有时序信息了。

于是，设置奖励，使得模型在分析视频内容时，要求对有时序信息的视频帧分析正确，对乱序的视频帧分析错误。写成公式如下：（这里的设置为 0.3）

于是乎，T-GRPO 的核心奖励如下：

其中，代表问题是否回答正确。这个公式的意思就是说，如果有时序信息的视频帧的分析效果比乱序的更好，那么奖励就是

除此之外，还对模型输出长度通过奖励做了限制。如果输出长度少，还有额外奖励：

最小长度被设置为 320，最大长度被设置为 512