VideoLLM相关论文（二）

补充（一）中的VideoChat-R1和VideoAuto-R1

一、VideoChat-R1

1、概述

motivation：在RL+MLLM基础上扩展更泛化的任务，比如时序定位，目标跟踪，并通过不同的奖励来强化。

contribution：

（1）针对时空感知任务的多奖励函数，实现少量数据的高效训练。

（2）多任务协同训练

（3）时序线索驱动推理--用于长视频时序定位，视频中的细粒度问答

感觉这个论文像是Time-R1（时序定位）+DeepVideo-R1（时序线索驱动推理）+多了个奖励函数的版本，应该是碰巧撞了idea。

2、方法

首先，VideoChat-R1考虑了五种视频相关tasks，包括时间定位、目标跟踪、视频问答、字幕生成和质量评估。而VideoChat-R1的基座与其他方法相近，即Video LLM+RL，RL同样采用GRPO。

解决办法则是添加更多的奖励函数，在格式化奖励基础上：

添加时空交并比（就是时间上的IoU，没有Time-R1的优化）

添加分类任务准确率奖励（多选题和分类任务必须完全一致赋1）：

视频字幕召回奖励（将预测caption和真实caption用Qwen2.5分解为两个set集合，并计算蕴含关系作为召回奖励）：

在不同任务时，我们采用不同的奖励组合，比如时序标注和目标跟踪问题用format+IoU的组合，多选题带时序的问答（问时间段节点）则使用format+IoU+Acc的组合，视频字幕问题则使用format+recall的组合，多选题和视频质量评估问题用format+recall。

线索驱动推理：用于处理长视频的方法，二阶段推理。

（1）先处理低分辨率 或低帧率的压缩视频，生成初始答案（A1），同时生成一个时序clue，比如兔子的出现在[1.2s,2.5s]，这种相关时间段，可以看作是模型thinking后给出的证据所在位置。

（2）对关键片段进行高分辨率、高帧率超采样，并再次输入模型，生成最终答案（A2）

3、实验

基模：Qwen2.5-VL-7B

数据集使用：

|----------------------|---------------|
| Temporal Grounding任务 | Charade - STA |
| Object Tracking任务 | GoT - 10k |
| QA和Grounding QA任务 | NExTGQA |
| Video Caption任务 | Fiber-1k |
| 视频质量评估任务 | VidTAB |

训练方法：不通过SFT二次训练Video datasets，直接在基模上应用GRPO，并多任务协同训练。

TVG任务效果如下：

二、VideoAuto-R1

1、概述

motivation：视频理解上依赖视觉感知，而非符号推理，所以冗长的CoT可能存在过度思考，同时浪费成本。

contribution：

（1）系统性研究直接回答与CoT模式下的性能对比

（2）VideoAuto-R1框架，"思考一次，回答两次"框架

2、相关工作

处理视频理解问题的推理方式：直接回答（a)，链式思维推理（b)，自适应推理（c)

直接回答：对纯感知问题回答准确，效率高，tokens少，但数学推理，复杂推理等缺失显式推理过程的会导致错误。

链式思维推理：必须一步步推理，最终输出答案，但无论难易问题，都要生成数百个tokens的推理过程，造成巨大计算资源浪费，简单问题也会出现过度思考。

自适应推理：本文的，先生成一个初始答案，根据答案置信度动态决定是否进行后续的CoT推理生成复审答案。并且两次答案都要受到奖励信号监督。

3、方法

3.1系统级对比CoT的意义

视频理解上CoT真的有意义吗？针对Video-R1，Time-R1，VideoChat-R1在长视频理解，视频问答等benchmark下对比两种推理策略。但惊人发现CoT的情况下，大多数benchmark，score甚至会下降。这也证明了CoT在特定任务上有效（多步推理的VideoMMMU)，过度思考会影响简单的感知问题，多数情况下CoT都是收效甚微。