ReMoT:运动对比三元组强化学习------解决视觉语言模型的时空一致性缺陷
来源 : CVPR 2026 (IEEE/CVF Conference on Computer Vision and Pattern Recognition)
arXiv : 2603.00461
作者 : Cong Wan, Zeyu Guo, Jiangyang Li, Songlin Dong, Yifan Bai, Lin Peng, Zhiheng Ma, Yihong Gong
机构 : 西安交通大学、深圳理工大学、阿里巴巴达摩院
基座模型 : Qwen3-VL-4B-Thinking
数据集 : ReMoT-16K (16,500 个运动对比三元组)
核心方法: 规则驱动数据构建 + GRPO 复合奖励优化
目录
- [为什么顶级 VLM 分不清"相机左转"和"物体右移"](#为什么顶级 VLM 分不清"相机左转"和"物体右移")
- 运动对比三元组:从二元到三元
- ReMoT-16K:规则驱动的多专家数据流水线
- 复合奖励设计:准确性、简洁性与逻辑一致性
- [训练范式:SFT、GRPO 与混合策略的系统比较](#训练范式:SFT、GRPO 与混合策略的系统比较)
- [实验验证:25.1% 的时空推理飞跃](#实验验证:25.1% 的时空推理飞跃)
- 工程权衡与反直觉发现
- 实际部署中的意义
- 参考文献
1. 为什么顶级 VLM 分不清"相机左转"和"物体右移"
1.1 时空一致性的工程灾难
视觉语言模型(VLMs)在静态图像理解上已达到接近人类水平。但在涉及时间维度的场景中,即使是顶级模型也频繁犯低级错误。以下是四个真实案例:
| 案例 | 场景 | 模型错误 | 物理现实 |
|---|---|---|---|
| 1 | 导航视频 | 相机顺时针旋转被判断为"物体向左移动" | 相机旋转 ≠ 物体运动 |
| 2 | 机器人操作 | 夹爪闭合状态被误判为"夹爪张开" | 帧间夹爪位移被误解 |
| 3 | 室内探索 | 相机后退被判断为"场景向前推进" | 相机运动方向与场景运动方向相反 |
| 4 | 游戏模拟 | 角色向左跑动被判断为"向右移动" | 运动方向与朝向混淆 |
这些错误不是边缘案例,而是系统性的。作者对 Qwen3-VL、Claude-Sonnet-4.5、GPT-4o 等顶级模型进行了大规模测试,发现它们在时空推理任务上的失败率远超预期。
1.2 失败根源:训练数据的静态偏见
现有 VLM 训练数据的构成揭示了一个结构性问题:
| 数据类型 | 占比 | 问题 |
|---|---|---|
| 静态图像-文本对 | > 95% | 完全缺乏时间维度信息 |
| 视频片段级描述 | < 5% | 只描述"发生了什么",不描述"如何发生" |
| 帧间运动标注 | 几乎为零 | 模型从未学习过"相机左转 vs 物体右移"的区分 |
这意味着模型在训练阶段从未接触过需要区分"运动属性"的任务。它们学会了识别"视频中有一只猫",但从未学会判断"猫是向左跑还是向右跑"。
1.3 现有修复方案的局限
当前改善 VLM 时空推理的方法分为三类,但各自存在工程缺陷:
方案一:架构修改
- 引入时间注意力模块、3D 位置编码、视频专用编码器
- 缺陷:架构改变需要重新训练整个模型,计算成本极高;且无法解决根本问题------训练数据缺乏运动监督
方案二:数据增强
- 对视频帧进行随机裁剪、时间采样、颜色抖动
- 缺陷:增强后的数据仍然缺乏明确的运动属性标注;模型无法从"增强的静态帧"中学习"运动对比"
方案三:直接 VLM 生成数据
- 用 GPT-4o 或 Qwen3-VL 分析视频,自动生成运动描述和三元组
- 缺陷:作者实测显示 55% 的输出存在格式错误(如选项数量不匹配);API 成本高昂;有效输出率极低(仅 632 个有效三元组)
1.4 工程缺口
因此,VLM 时空推理面临一个三重缺口:
- 数据缺口:缺乏大规模、高质量的帧间运动对比数据
- 标注缺口:手动标注运动属性成本极高,自动标注质量不可靠
- 训练缺口:现有优化范式(SFT、DPO)无法有效学习对比推理
1.5 认知检查点
因此,ReMoT 的设计起点不是"设计一个更好的时间编码器",而是"构建一个系统性的数据-训练-评估框架,让模型从数据中学习运动对比,从训练中强化对比推理,从评估中检验细粒度辨别能力"。
2. 运动对比三元组:从二元到三元
2.1 为什么二元对比不够
对比学习(Contrastive Learning)的经典范式是二元对:一个锚点样本和一个正例(相似),或一个锚点和一个负例(不相似)。但二元对在运动理解中存在根本性缺陷:
| 二元对类型 | 结构 | 问题 |
|---|---|---|
| 锚点-正例 | ( I a n c h o r , I p o s ) (I_{anchor}, I_{pos}) (Ianchor,Ipos) | 模型只学会"这两帧相似",但不知道相似在哪里 |
| 锚点-负例 | ( I a n c h o r , I n e g ) (I_{anchor}, I_{neg}) (Ianchor,Ineg) | 模型只学会"这两帧不同",但不知道不同在哪里 |
二元对的问题在于缺乏相对参照 。模型看到 ( I a n c h o r , I p o s ) (I_{anchor}, I_{pos}) (Ianchor,Ipos) 和 ( I a n c h o r , I n e g ) (I_{anchor}, I_{neg}) (Ianchor,Ineg) 作为两个独立的实例,无法建立" I p o s I_{pos} Ipos 和 I n e g I_{neg} Ineg 相对于 I a n c h o r I_{anchor} Ianchor 的运动关系是相反的"这一关键认知。
2.2 三元组的对比优势
ReMoT 的核心创新是运动对比三元组 ( I a n c h o r , I p o s , I n e g ) (I_{anchor}, I_{pos}, I_{neg}) (Ianchor,Ipos,Ineg):
- I a n c h o r I_{anchor} Ianchor:锚点帧(参考帧)
- I p o s I_{pos} Ipos:正例帧(相对于锚点,展示特定运动属性 m m m)
- I n e g I_{neg} Ineg:负例帧(相对于锚点,展示相反或冲突的运动属性 KaTeX parse error: Unexpected character: '' at position 1: ̲ar{m})
关键设计: I p o s I_{pos} Ipos 和 I n e g I_{neg} Ineg 都是物理上合理的帧过渡------它们不是随机噪声或损坏图像,而是真实存在的、与锚点视觉上相似但运动方向相反的帧。
#mermaid-svg-5sgTnL2sHvcx8gLD{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:30px;fill:#fff;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-5sgTnL2sHvcx8gLD .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-5sgTnL2sHvcx8gLD .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-5sgTnL2sHvcx8gLD .error-icon{fill:#f39c12;}#mermaid-svg-5sgTnL2sHvcx8gLD .error-text{fill:#0c63ed;stroke:#0c63ed;}#mermaid-svg-5sgTnL2sHvcx8gLD .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-5sgTnL2sHvcx8gLD .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-5sgTnL2sHvcx8gLD .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-5sgTnL2sHvcx8gLD .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-5sgTnL2sHvcx8gLD .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-5sgTnL2sHvcx8gLD .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-5sgTnL2sHvcx8gLD .marker{fill:#2c3e50;stroke:#2c3e50;}#mermaid-svg-5sgTnL2sHvcx8gLD .marker.cross{stroke:#2c3e50;}#mermaid-svg-5sgTnL2sHvcx8gLD svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:30px;}#mermaid-svg-5sgTnL2sHvcx8gLD p{margin:0;}#mermaid-svg-5sgTnL2sHvcx8gLD .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#fff;}#mermaid-svg-5sgTnL2sHvcx8gLD .cluster-label text{fill:#0c63ed;}#mermaid-svg-5sgTnL2sHvcx8gLD .cluster-label span{color:#0c63ed;}#mermaid-svg-5sgTnL2sHvcx8gLD .cluster-label span p{background-color:transparent;}#mermaid-svg-5sgTnL2sHvcx8gLD .label text,#mermaid-svg-5sgTnL2sHvcx8gLD span{fill:#fff;color:#fff;}#mermaid-svg-5sgTnL2sHvcx8gLD .node rect,#mermaid-svg-5sgTnL2sHvcx8gLD .node circle,#mermaid-svg-5sgTnL2sHvcx8gLD .node ellipse,#mermaid-svg-5sgTnL2sHvcx8gLD .node polygon,#mermaid-svg-5sgTnL2sHvcx8gLD .node path{fill:#ff6b6b;stroke:#c0392b;stroke-width:1px;}#mermaid-svg-5sgTnL2sHvcx8gLD .rough-node .label text,#mermaid-svg-5sgTnL2sHvcx8gLD .node .label text,#mermaid-svg-5sgTnL2sHvcx8gLD .image-shape .label,#mermaid-svg-5sgTnL2sHvcx8gLD .icon-shape .label{text-anchor:middle;}#mermaid-svg-5sgTnL2sHvcx8gLD .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-5sgTnL2sHvcx8gLD .rough-node .label,#mermaid-svg-5sgTnL2sHvcx8gLD .node .label,#mermaid-svg-5sgTnL2sHvcx8gLD .image-shape .label,#mermaid-svg-5sgTnL2sHvcx8gLD .icon-shape .label{text-align:center;}#mermaid-svg-5sgTnL2sHvcx8gLD .node.clickable{cursor:pointer;}#mermaid-svg-5sgTnL2sHvcx8gLD .root .anchor path{fill:#2c3e50!important;stroke-width:0;stroke:#2c3e50;}#mermaid-svg-5sgTnL2sHvcx8gLD .arrowheadPath{fill:#0b0b0b;}#mermaid-svg-5sgTnL2sHvcx8gLD .edgePath .path{stroke:#2c3e50;stroke-width:2.0px;}#mermaid-svg-5sgTnL2sHvcx8gLD .flowchart-link{stroke:#2c3e50;fill:none;}#mermaid-svg-5sgTnL2sHvcx8gLD .edgeLabel{background-color:#3498db;text-align:center;}#mermaid-svg-5sgTnL2sHvcx8gLD .edgeLabel p{background-color:#3498db;}#mermaid-svg-5sgTnL2sHvcx8gLD .edgeLabel rect{opacity:0.5;background-color:#3498db;fill:#3498db;}#mermaid-svg-5sgTnL2sHvcx8gLD .labelBkg{background-color:rgba(52, 152, 219, 0.5);}#mermaid-svg-5sgTnL2sHvcx8gLD .cluster rect{fill:#f39c12;stroke:hsl(36.8, 50.3614457831%, 41.1764705882%);stroke-width:1px;}#mermaid-svg-5sgTnL2sHvcx8gLD .cluster text{fill:#0c63ed;}#mermaid-svg-5sgTnL2sHvcx8gLD .cluster span{color:#0c63ed;}#mermaid-svg-5sgTnL2sHvcx8gLD div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:#f39c12;border:1px solid hsl(36.8, 50.3614457831%, 41.1764705882%);border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-5sgTnL2sHvcx8gLD .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#fff;}#mermaid-svg-5sgTnL2sHvcx8gLD rect.text{fill:none;stroke-width:0;}#mermaid-svg-5sgTnL2sHvcx8gLD .icon-shape,#mermaid-svg-5sgTnL2sHvcx8gLD .image-shape{background-color:#3498db;text-align:center;}#mermaid-svg-5sgTnL2sHvcx8gLD .icon-shape p,#mermaid-svg-5sgTnL2sHvcx8gLD .image-shape p{background-color:#3498db;padding:2px;}#mermaid-svg-5sgTnL2sHvcx8gLD .icon-shape .label rect,#mermaid-svg-5sgTnL2sHvcx8gLD .image-shape .label rect{opacity:0.5;background-color:#3498db;fill:#3498db;}#mermaid-svg-5sgTnL2sHvcx8gLD .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-5sgTnL2sHvcx8gLD .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-5sgTnL2sHvcx8gLD :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 对比维度
负例帧
正例帧
锚点帧
相机视角
相机左转 30°
相机右转 30°
运动方向相反
场景内容相同
视觉高度相似
图注:运动对比三元组的结构。锚点帧(红色)是参考视角;正例帧(绿色)展示特定运动属性(如相机左转 30°);负例帧(深红色)展示相反属性(相机右转 30°)。关键设计:正负例帧与锚点共享相同的场景内容,仅在运动属性上相反,迫使模型学习辨别运动方向而非场景内容。
2.3 消融实验:三元组 vs 二元对
| 对比形式 | Overall | Partial |
|---|---|---|
| 二元对 | 19.4 | 39.4 |
| 三元组 | 38.0 | 64.0 |
| 绝对提升 | +18.6 | +24.6 |
三元组相比二元对的性能提升是实质性的(+18.6% Overall,+24.6% Partial)。这证明了一个核心假设:联合对比监督(同时看到正例和负例)比分离的实例监督更能学习细粒度运动辨别。
2.4 认知检查点
因此,ReMoT 的三元组设计不是"把二元对扩展为三元组"的简单工程,而是精确刻画了运动理解的认知结构:理解"相机左转"不仅需要知道"这是相机运动",还需要知道"这不是相机右转"、"这不是物体右移"、"这不是场景后退"。三元组通过并置相反运动,迫使模型建立这种相对运动认知。
3. ReMoT-16K:规则驱动的多专家数据流水线
3.1 为什么不能用 VLM 直接生成数据
最直接的方案是用 Qwen3-VL 或 Gemini-2.5-Pro 分析视频帧,自动生成运动三元组。但作者实测发现:
| 问题 | 具体表现 | 后果 |
|---|---|---|
| 格式错误 | 55% 的输出存在格式违规(如选项数量不匹配) | 无法直接用于训练 |
| API 成本 | 每三元组需要多次 LLM 调用 | 规模化成本 prohibitive |
| 有效输出率低 | 质量过滤后仅剩 632 个有效三元组 | 数据规模不足以训练 |
| 幻觉问题 | VLM 可能生成物理上不可能的运动描述 | 引入错误监督信号 |
3.2 多专家协作流水线
ReMoT 的解决方案是基于视频元标注的规则驱动流水线,将数据生成分解为三个专家阶段:
#mermaid-svg-ZTDVY1vHTyOCCBKd{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:30px;fill:#fff;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-ZTDVY1vHTyOCCBKd .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-ZTDVY1vHTyOCCBKd .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-ZTDVY1vHTyOCCBKd .error-icon{fill:#f39c12;}#mermaid-svg-ZTDVY1vHTyOCCBKd .error-text{fill:#0c63ed;stroke:#0c63ed;}#mermaid-svg-ZTDVY1vHTyOCCBKd .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-ZTDVY1vHTyOCCBKd .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-ZTDVY1vHTyOCCBKd .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-ZTDVY1vHTyOCCBKd .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-ZTDVY1vHTyOCCBKd .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-ZTDVY1vHTyOCCBKd .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-ZTDVY1vHTyOCCBKd .marker{fill:#2c3e50;stroke:#2c3e50;}#mermaid-svg-ZTDVY1vHTyOCCBKd .marker.cross{stroke:#2c3e50;}#mermaid-svg-ZTDVY1vHTyOCCBKd svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:30px;}#mermaid-svg-ZTDVY1vHTyOCCBKd p{margin:0;}#mermaid-svg-ZTDVY1vHTyOCCBKd .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#fff;}#mermaid-svg-ZTDVY1vHTyOCCBKd .cluster-label text{fill:#0c63ed;}#mermaid-svg-ZTDVY1vHTyOCCBKd .cluster-label span{color:#0c63ed;}#mermaid-svg-ZTDVY1vHTyOCCBKd .cluster-label span p{background-color:transparent;}#mermaid-svg-ZTDVY1vHTyOCCBKd .label text,#mermaid-svg-ZTDVY1vHTyOCCBKd span{fill:#fff;color:#fff;}#mermaid-svg-ZTDVY1vHTyOCCBKd .node rect,#mermaid-svg-ZTDVY1vHTyOCCBKd .node circle,#mermaid-svg-ZTDVY1vHTyOCCBKd .node ellipse,#mermaid-svg-ZTDVY1vHTyOCCBKd .node polygon,#mermaid-svg-ZTDVY1vHTyOCCBKd .node path{fill:#ff6b6b;stroke:#c0392b;stroke-width:1px;}#mermaid-svg-ZTDVY1vHTyOCCBKd .rough-node .label text,#mermaid-svg-ZTDVY1vHTyOCCBKd .node .label text,#mermaid-svg-ZTDVY1vHTyOCCBKd .image-shape .label,#mermaid-svg-ZTDVY1vHTyOCCBKd .icon-shape .label{text-anchor:middle;}#mermaid-svg-ZTDVY1vHTyOCCBKd .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-ZTDVY1vHTyOCCBKd .rough-node .label,#mermaid-svg-ZTDVY1vHTyOCCBKd .node .label,#mermaid-svg-ZTDVY1vHTyOCCBKd .image-shape .label,#mermaid-svg-ZTDVY1vHTyOCCBKd .icon-shape .label{text-align:center;}#mermaid-svg-ZTDVY1vHTyOCCBKd .node.clickable{cursor:pointer;}#mermaid-svg-ZTDVY1vHTyOCCBKd .root .anchor path{fill:#2c3e50!important;stroke-width:0;stroke:#2c3e50;}#mermaid-svg-ZTDVY1vHTyOCCBKd .arrowheadPath{fill:#0b0b0b;}#mermaid-svg-ZTDVY1vHTyOCCBKd .edgePath .path{stroke:#2c3e50;stroke-width:2.0px;}#mermaid-svg-ZTDVY1vHTyOCCBKd .flowchart-link{stroke:#2c3e50;fill:none;}#mermaid-svg-ZTDVY1vHTyOCCBKd .edgeLabel{background-color:#3498db;text-align:center;}#mermaid-svg-ZTDVY1vHTyOCCBKd .edgeLabel p{background-color:#3498db;}#mermaid-svg-ZTDVY1vHTyOCCBKd .edgeLabel rect{opacity:0.5;background-color:#3498db;fill:#3498db;}#mermaid-svg-ZTDVY1vHTyOCCBKd .labelBkg{background-color:rgba(52, 152, 219, 0.5);}#mermaid-svg-ZTDVY1vHTyOCCBKd .cluster rect{fill:#f39c12;stroke:hsl(36.8, 50.3614457831%, 41.1764705882%);stroke-width:1px;}#mermaid-svg-ZTDVY1vHTyOCCBKd .cluster text{fill:#0c63ed;}#mermaid-svg-ZTDVY1vHTyOCCBKd .cluster span{color:#0c63ed;}#mermaid-svg-ZTDVY1vHTyOCCBKd div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:#f39c12;border:1px solid hsl(36.8, 50.3614457831%, 41.1764705882%);border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-ZTDVY1vHTyOCCBKd .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#fff;}#mermaid-svg-ZTDVY1vHTyOCCBKd rect.text{fill:none;stroke-width:0;}#mermaid-svg-ZTDVY1vHTyOCCBKd .icon-shape,#mermaid-svg-ZTDVY1vHTyOCCBKd .image-shape{background-color:#3498db;text-align:center;}#mermaid-svg-ZTDVY1vHTyOCCBKd .icon-shape p,#mermaid-svg-ZTDVY1vHTyOCCBKd .image-shape p{background-color:#3498db;padding:2px;}#mermaid-svg-ZTDVY1vHTyOCCBKd .icon-shape .label rect,#mermaid-svg-ZTDVY1vHTyOCCBKd .image-shape .label rect{opacity:0.5;background-color:#3498db;fill:#3498db;}#mermaid-svg-ZTDVY1vHTyOCCBKd .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-ZTDVY1vHTyOCCBKd .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-ZTDVY1vHTyOCCBKd :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 输出
专家三:VQA 制定
专家二:三元组构建
专家一:运动估计
输入
原始视频
元标注
导航专家
操作专家
游戏专家
正例选择
负例合成
多项选择
判断题
填空题
比较推理
ReMoT-16K
图注 :ReMoT-16K 的多专家协作流水线。输入层(橙色)提供原始视频和结构化元标注(如相机姿态矩阵、机器人动作日志)。专家一(蓝色)是领域特定的运动估计器:导航专家解析 S E ( 3 ) SE(3) SE(3) 姿态矩阵,操作专家提取末端执行器轨迹,游戏专家分析角色运动状态。专家二(绿色)构建三元组:选择满足运动幅度阈值 T m \mathcal{T}_m Tm 的正例,通过几何合成或检索生成负例。专家三(紫色)为每个三元组设计多视角推理链的问答对。输出层(红色)是 16,500 个高质量运动对比三元组。
3.3 专家一:运动估计
每个领域使用专门的元数据解析器:
| 领域 | 元数据来源 | 运动属性提取 |
|---|---|---|
| 导航 | 相机 S E ( 3 ) SE(3) SE(3) 姿态矩阵 | 旋转角度、平移向量、运动方向 |
| 机器人操作 | 机器人遥操作日志 | 夹爪状态、关节角度、末端轨迹 |
| 游戏模拟 | 游戏引擎状态 | 角色位置、朝向、速度、动作状态 |
| 室内探索 | SLAM 轨迹 | 相机路径、视角变化、场景覆盖 |
运动属性 m m m 是组合式的,编码运动语义和物理属性。例如:
m = { rotation , left , 30 ° } m = \{\text{rotation}, \text{left}, 30°\} m={rotation,left,30°}
表示"相机向左旋转 30 度"。
3.4 专家二:三元组构建
正例选择:通过属性特定的幅度阈值筛选"可感知但连贯"的过渡:
ϕ ( I t , I t ′ , m ) = { ( I a n c h o r , I p o s , m ) if ∥ m ∥ ∈ T m None otherwise \phi(I_t, I_{t'}, m) = \begin{cases} (I_{anchor}, I_{pos}, m) & \text{if } \|m\| \in \mathcal{T}_m \\ \text{None} & \text{otherwise} \end{cases} ϕ(It,It′,m)={(Ianchor,Ipos,m)Noneif ∥m∥∈Tmotherwise
例如,相机旋转阈值 T m = 10 ° , 50 ° \mathcal{T}_m = 10°, 50° Tm=10°,50°:太小(< 10°)难以感知,太大(> 50°)可能破坏场景连贯性。
负例生成:两种策略:
- 几何合成 T g e o \mathcal{T}_{geo} Tgeo:对正例帧应用空间变换模拟相反运动(如水平翻转模拟"左转"→"右转")
- 检索 R \mathcal{R} R:在视频库中搜索视觉相似但运动属性冲突的帧
3.5 专家三:VQA 制定
每个三元组通过多问题推理链进行多角度探查:
| 问题类型 | 示例 | 考察能力 |
|---|---|---|
| 多项选择 | "相机相对于锚点帧如何运动?A. 左转 B. 右转 C. 前进 D. 后退" | 运动方向辨别 |
| 判断题 | "正例帧展示的是相机后退,这个说法是否正确?" | 运动属性验证 |
| 填空题 | "正例帧与锚点帧之间的运动属性是______" | 运动语义提取 |
| 比较推理 | "正例帧和负例帧的运动方向关系是什么?" | 对比推理 |
3.6 认知检查点
因此,ReMoT-16K 的数据构建不是"用规则替代 VLM"的倒退,而是精确工程的体现:规则处理结构化元数据(姿态矩阵、动作日志)是可靠且高效的;VLM 处理非结构化视觉内容容易产生幻觉。多专家流水线把"各取所长"的原则制度化,实现了 16,500 个高质量三元组的规模化生成。
4. 复合奖励设计:准确性、简洁性与逻辑一致性
4.1 为什么单一奖励不够
标准 RL 在 VLM 训练中通常只使用任务准确性奖励(答案是否正确)。但作者发现,对于时空推理任务,单一奖励会导致三个问题:
| 问题 | 具体表现 | 后果 |
|---|---|---|
| 推理链冗长 | 模型生成数百个 token 的 thinking trace | 推理速度慢,关键信息被淹没 |
| 逻辑矛盾 | 推理过程中前后结论不一致 | 即使最终答案正确,推理过程不可靠 |
| 奖励稀疏 | 只有最终答案正确时才获得奖励 | 中间推理步骤缺乏反馈 |
4.2 四重复合奖励
ReMoT 设计了四个互补的奖励组件:
| 奖励组件 | 符号 | 权重 | 功能 |
|---|---|---|---|
| 格式奖励 | R f o r m a t R_{format} Rformat | 内部 | 鼓励有效的答案语法(由 ms-swift 库提供) |
| 任务准确性 | R t a s k R_{task} Rtask | 3.5 | 基于与 ground truth 的正确性 |
| 推理简洁性 | R l e n g t h R_{length} Rlength | 1.3 | 惩罚过长的推理链,调节 CoT 长度 |
| 逻辑一致性 | R l o g i c R_{logic} Rlogic | 1.7 | 促进推理过程的自洽性 |
复合奖励公式:
R i = R t a s k ( q , o i ) + λ 1 ⋅ R l o g i c ( o i ) + λ 2 ⋅ R l e n g t h ( o i ) R_i = R_{task}(q, o_i) + \lambda_1 \cdot R_{logic}(o_i) + \lambda_2 \cdot R_{length}(o_i) Ri=Rtask(q,oi)+λ1⋅Rlogic(oi)+λ2⋅Rlength(oi)
4.3 逻辑一致性奖励的工程细节
逻辑一致性奖励是 ReMoT 最具原创性的组件。它通过传递性验证检查推理链的内部一致性:
R l o g i c ( o ) = { + 1 if answers satisfy logic − 1 if answers contain contradictions 0 if no verifiable relation exists R_{logic}(o) = \begin{cases} +1 & \text{if answers satisfy logic} \\ -1 & \text{if answers contain contradictions} \\ 0 & \text{if no verifiable relation exists} \end{cases} Rlogic(o)=⎩ ⎨ ⎧+1−10if answers satisfy logicif answers contain contradictionsif no verifiable relation exists
验证器提取推理链中的关系符号(如"A 在 B 左边"、"B 在 C 左边"),然后应用传递性规则检查是否一致。例如:
- 如果模型声称"相机向左转"且"场景相对于相机向右移动",这是逻辑一致的(相对运动原理)
- 如果模型声称"相机向左转"且"场景相对于相机也向左移动",这是逻辑矛盾的
4.4 认知检查点
因此,ReMoT 的复合奖励不是"把多个奖励简单相加",而是一个多维约束系统。任务准确性保证"答案对",逻辑一致性保证"推理对",简洁性保证"说得好"。三个维度共同防止模型走向"正确答案但错误推理"或"冗长推理但关键信息缺失"的陷阱。
5. 训练范式:SFT、GRPO 与混合策略的系统比较
5.1 三种优化范式的工程对比
ReMoT 系统比较了五种训练配置:
| 配置 | 描述 | 适用场景 |
|---|---|---|
| 纯 SFT | 标准监督微调 | 建立基础能力 |
| 纯 GRPO | 强化学习优化 | 精细化策略调整 |
| 顺序混合 SFT→GRPO | 先 SFT 预热,再 GRPO 精调 | 稳定初始化 + 策略优化 |
| 交替混合 SFT↔GRPO | SFT 和 GRPO 步骤交替执行 | 语言对齐与奖励对齐联合进化 |
5.2 交替混合的算法设计
交替混合是 ReMoT 的核心训练创新。其伪代码如下:
Algorithm: SFT-GRPO with Composite Rewards
Input: Dataset D, policy πθ, old policy πθ_old, reference πref,
max steps T_max, group size G, clip ratio ε, learning rate η,
phase lengths (K_SFT, K_GRPO), weights λ1, λ2
Output: Optimized parameters θ
for t = 1 to T_max do
if t mod (K_SFT + K_GRPO) < K_SFT then
// SFT Phase
for each batch in D do
Compute cross-entropy loss on <answer> tokens
Update θ via gradient descent
end for
else
// GRPO Phase
for each query q in D do
Sample G rollouts {o_i} from πθ_old
for i = 1 to G do
Compute composite reward R_i = R_task + λ1·R_logic + λ2·R_length
end for
Compute advantages Â_i via group relative standardization
for i = 1 to G do
Compute importance ratio r_i = πθ(o_i|q) / πθ_old(o_i|q)
end for
Compute objective J(θ) via clipped surrogate
Update θ ← θ - η·∇θJ(θ)
Sync old policy: πθ_old ← πθ
end for
end if
end for
5.3 为什么交替优于顺序
| 特性 | 顺序 SFT→GRPO | 交替 SFT↔GRPO |
|---|---|---|
| 语言对齐 | SFT 阶段一次性完成 | 持续维护,防止 RL 阶段的语言漂移 |
| 奖励对齐 | GRPO 阶段集中优化 | 与语言对齐联合进化,避免"遗忘" |
| 训练稳定性 | 高(SFT 提供稳定初始化) | 中等(需要 careful 的 phase 长度调参) |
| 最终性能 | 良好 | 更优(语言能力与推理能力同步提升) |
交替混合的关键洞察:SFT 和 GRPO 优化的是不同的目标函数------SFT 优化语言建模的似然,GRPO 优化策略的期望回报。如果两者完全分离,GRPO 可能"覆盖"SFT 学到的语言能力;如果交替进行,两种能力可以协同进化。
5.4 认知检查点
因此,ReMoT 的训练范式比较不是"证明 GRPO 比 SFT 好"的简单结论,而是揭示了混合优化的工程价值:在时空推理这种需要同时保持语言能力和推理能力的任务上,交替混合策略提供了比单一范式更优的解决方案。
6. 实验验证:25.1% 的时空推理飞跃
6.1 主结果:ReMoT-16K-Test 基准
| 模型 | 规模 | Overall | Partial |
|---|---|---|---|
| GPT-4o | 未知 | 32.5 | 56.0 |
| Qwen3-VL-30B-CoT | 30B | 34.6 | 59.0 |
| ReMoT-4B-CoT | 4B | 38.0 | 64.0 |
关键发现:
- 4B 模型超越 30B 模型:ReMoT-4B-CoT 在 Overall 上超越 Qwen3-VL-30B-CoT +3.4%,在 Partial 上 +5.0%
- 超越 GPT-4o:ReMoT-4B-CoT 超越 GPT-4o +5.5% Overall,+8.0% Partial
- 25.1% 相对提升:相比基线 Qwen3-VL-4B-Thinking,ReMoT 实现了 25.1% 的相对性能提升
6.2 标准 VLM 基准上的泛化
| 基准 | 类型 | ReMoT-4B-CoT | Qwen3-VL-30B-CoT | 提升 |
|---|---|---|---|---|
| VLM2 | 时空推理 | SOTA | -1.8% | +1.8% |
| VSI | 空间智能 | SOTA | -2.7% | +2.7% |
| MMSI | 多图空间 | SOTA | -2.3% | +2.3% |
| BLINK | 通用多模态 | 可比 | 可比 | --- |
| MUIR | 通用多模态 | 可比 | 可比 | --- |
| MMStar | 通用多模态 | 可比 | 可比 | --- |
| MMMU | 多学科推理 | 可比 | 可比 | --- |
关键发现:ReMoT 在时空推理基准上达到 SOTA,同时在通用多模态基准上保持可比性能------增强时空推理没有损害通用能力。
6.3 模型规模与性能提升
| 模型规模 | ReMoT 提升倍数 | 说明 |
|---|---|---|
| 2B | 2x | 小模型也能从数据中获得显著收益 |
| 4B | 4x | 最佳性价比点 |
| 8B | 8x | 大模型从高质量数据中获得最大收益 |
反直觉发现:8B 模型的提升倍数(8x)高于 4B(4x)和 2B(2x) 。这说明时空不一致性主要源于训练目标错位而非模型容量限制。更大的模型有更强的能力来吸收和利用运动对比监督。
6.4 消融实验:GRPO vs 其他优化策略
| 优化策略 | Overall | 与 GRPO 差距 |
|---|---|---|
| DPO | 较低 | 显著落后 |
| DAPO | 较低 | 显著落后 |
| GRPO | 最高 | --- |
GRPO 的优势在于:空间事实具有确定性和几何可验证性,规则奖励(基于元数据计算)比学习奖励(需要模型判断)更可靠。GRPO 的组内相对估计在这种确定性奖励环境下表现最优。
6.5 认知检查点
因此,ReMoT 的实验结果不是"在自家基准上刷榜",而是经过多重验证的系统性提升:在自建基准上超越 GPT-4o,在标准基准上达到 SOTA,在不同规模上保持一致的增益趋势。25.1% 的提升在 VLM 领域是罕见的实质性进步。
7. 工程权衡与反直觉发现
7.1 反直觉一:小模型可以超越大模型
ReMoT-4B-CoT(4B 参数)在时空推理上超越了 Qwen3-VL-30B-CoT(30B 参数)和 GPT-4o(规模未知但远大于 4B)。这证明:
- 数据质量 > 模型规模:高质量的运动对比数据可以让小模型获得大模型无法通过规模弥补的能力
- 任务特异性 > 通用能力:在时空推理这个特定维度上,专门训练的小模型可以超越通用大模型
7.2 反直觉二:规则奖励比学习奖励更可靠
传统 RL 倾向于使用学习得到的奖励模型(如 DPO 的偏好模型)。但 ReMoT 使用基于元数据的规则奖励:
- 相机旋转角度可以从 S E ( 3 ) SE(3) SE(3) 姿态矩阵精确计算
- 机器人动作可以从遥操作日志直接读取
- 这些奖励是确定性的、无噪声的、可验证的
在确定性奖励环境下,GRPO 的组内相对估计比 DPO 的偏好学习更高效、更稳定。
7.3 反直觉三:GRPO 的 rollout 大小对性能影响不大
实验显示,即使使用较小的 rollout 大小(如 G=4),GRPO 仍能保持性能。这与直觉(更多 rollout = 更准确的估计)相反:
- 运动对比任务的奖励信号是确定性的 (基于几何计算),而非主观的(基于人类偏好)
- 确定性奖励的方差小,少量 rollout 即可提供可靠的组内比较
- 小 rollout 意味着更高的训练效率(更少的采样成本)
7.4 反直觉四:交替混合优于顺序混合
通常认为,先 SFT 预热再 RL 精调是更稳定的策略。但 ReMoT 的交替混合(SFT↔GRPO)表现更优:
- 顺序混合中,GRPO 阶段可能"覆盖"SFT 学到的语言能力
- 交替混合让语言对齐和奖励对齐协同进化
- 每个 GRPO 阶段后紧跟的 SFT 阶段"刷新"语言能力,防止遗忘
7.5 常见工程误判
-
误判:"VLM 的时空推理问题需要更大的模型"
-
事实:ReMoT 证明 4B 模型可以超越 30B 模型,关键在于训练数据而非模型规模
-
误判:"视频数据比图像数据更适合训练时空推理"
-
事实 :ReMoT 使用帧间三元组(而非完整视频),证明帧间对比 比视频理解更能学习时空一致性
-
误判:"RL 需要复杂的奖励模型设计"
-
事实:ReMoT 的规则奖励基于现成的元数据(姿态矩阵、动作日志),无需训练奖励模型
8. 实际部署中的意义
8.1 对自动驾驶的影响
自动驾驶系统需要理解"相机运动"与"场景运动"的区分:
- 车辆转弯时,相机视角变化 ≠ 其他车辆运动
- 当前系统容易将自身运动误判为障碍物运动,导致误刹车或漏检
- ReMoT 的训练方法可以直接应用于自动驾驶感知模型的后训练
8.2 对机器人导航的影响
机器人导航中的视觉里程计(Visual Odometry)和 SLAM 依赖精确的帧间运动估计:
- 机器人前进时,场景"后退"是相机运动的正常结果,不应被识别为动态障碍物
- 当前 VLM 驱动的导航系统频繁犯此类错误
- ReMoT-16K 的导航子集(约 50 个三元组)可以直接用于导航模型的微调
8.3 对视频理解的影响
当前视频理解模型(如 Video-LLaMA、VILA)主要关注"视频中发生了什么"(事件识别),而非"如何发生"(运动理解)。ReMoT 提供了一条路径:
- 从视频元数据(相机参数、角色状态)自动生成运动对比数据
- 无需人工标注即可规模化训练
- 未来可集成 SfM/SLAM 系统,为网络视频生成伪真值运动元数据
8.4 认知检查点
因此,ReMoT 在实际部署中的意义不是"一个更好的 VLM 基准测试分数",而是一个可迁移的时空推理训练框架。其核心组件------规则驱动的数据流水线、三元组对比学习、复合奖励 GRPO------可以应用于任何需要理解"运动"与"场景"关系的视觉系统。
9. 参考文献
- Wan, C., Guo, Z., Li, J., Dong, S., Bai, Y., Peng, L., Ma, Z., & Gong, Y. (2026). ReMoT: Reinforcement Learning with Motion Contrast Triplets. CVPR 2026 . arXiv:2603.00461. (arXiv)
- Shao, Z., et al. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300. (GRPO algorithm)
- Bai, S., et al. (2025). Qwen3-VL Technical Report. arXiv:2502.13923.
- Yang, J., et al. (2024). Thinking in Space: How Multimodal Large Language Models See, Remember and Recall Spaces. arXiv:2412.14171.
- Yang, S., et al. (2025). MMSI-bench: A Benchmark for Multi-image Spatial Intelligence. arXiv:2505.23764.
- Zhang, J., et al. (2025). VLM2-bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues. arXiv:2502.12084.
- Fu, X., et al. (2024). Blink: Multimodal Large Language Models Can See but Not Perceive. ECCV 2024.
- Yue, X., et al. (2024). MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI. CVPR 2024.
- Liu, H., et al. (2023). Visual Instruction Tuning. NeurIPS 2023.
- Kim, T., et al. (2024). Video LLMs for Temporal Reasoning in Long Videos. arXiv:2412.02930.