ReMoT:运动对比三元组强化学习——解决视觉语言模型的时空一致性缺陷来源: CVPR 2026 (IEEE/CVF Conference on Computer Vision and Pattern Recognition) arXiv: 2603.00461 作者: Cong Wan, Zeyu Guo, Jiangyang Li, Songlin Dong, Yifan Bai, Lin Peng, Zhiheng Ma, Yihong Gong 机构: 西安交通大学、深圳理工大学、阿里巴巴达摩院 基座模型: Qwen3-VL-4B-Thinking 数据集: ReM