【论文笔记】【强化微调】T-GRPO:对视频数据进行强化微调

tulerfeng/Video-R1: Video-R1: Reinforcing Video Reasoning in MLLMs [🔥the first paper to explore R1 for video]

1. 引述

在强化微调中,像 GRPO、DAPO 这样的方法都是对文本或者图片进行微调思考,所以这类微调方法不对时序信息做处理,因此无法很好的迁移到视频的强化微调中。

虽说目前有不少视频理解的工作,但是都没有加上强化微调的方法。也就是说,针对视频数据的强化微调很稀缺。

于是几个大学(港大+清华+中科大)联合搞了一个 Video-R1,提出 T-GRPO,实现对视频进行思考。

2. T-GRPO

T-GRPO 的核心思路如上图。

相比 GRPO,T-GRPO 的创新在于使大模型微调的时候,能关注时序信息。做法就是将视频数据复制一份,并将这一份的视频帧打乱,打乱视频帧的视频就没有时序信息了。

于是,设置奖励,使得模型在分析视频内容时,要求对有时序信息的视频帧分析正确,对乱序的视频帧分析错误。写成公式如下:(这里的 设置为 0.3)

于是乎,T-GRPO 的核心奖励如下:

其中, 代表问题是否回答正确。这个公式的意思就是说,如果有时序信息的视频帧的分析效果比乱序的更好,那么奖励就是

除此之外,还对模型输出长度通过奖励做了限制。如果输出长度少,还有额外奖励:

最小长度 被设置为 320,最大长度 被设置为 512

相关推荐
电科_银尘5 小时前
【论文阅读】Deep Cascade:开启级联网络与数据一致性(DC)的新纪元
论文阅读
Chunyyyen8 小时前
【第三十七周】论文阅读03
论文阅读
智算菩萨1 天前
【Generative AI For Autonomous Driving】1 生成式AI重塑自动驾驶的技术浪潮与体系化挑战
论文阅读·人工智能·深度学习·机器学习·ai·自动驾驶
智算菩萨1 天前
【Generative AI For Autonomous Driving】7 生成式AI驱动自动驾驶的未来图景:开放挑战、社会机遇与技术展望
论文阅读·人工智能·深度学习·机器学习·ai·自动驾驶
智算菩萨1 天前
元认知AI素养:来自交互式AI展览的发现——文献精读
论文阅读·人工智能·深度学习·ai
AustinCyy1 天前
【论文笔记】Guiding Generative Storytelling with Knowledge Graphs
论文阅读·人工智能·知识图谱
智算菩萨1 天前
【Generative AI For Autonomous Driving】5 生成式AI在自动驾驶中的六大应用场景:从数据合成到智慧交通
论文阅读·人工智能·机器学习·ai·自动驾驶·感知
智算菩萨1 天前
【Generative AI For Autonomous Driving】6 生成式AI在具身智能领域的拓展:从自动驾驶到通用机器人的技术迁移
论文阅读·人工智能·机器学习·ai·机器人·自动驾驶
wuxuand1 天前
2025论文阅读-TSCMamba如何用“多视角”和“探戈舞步”提升分类精度?
论文阅读
智算菩萨1 天前
ChatGPT在非洲主要国家教育中的应用:效益、接受度与伦理挑战——基于2022-2024年文献的系统综述精读
论文阅读·人工智能·gpt·深度学习·ai·chatgpt·论文笔记