CVPR2025敲门砖丨机器人结合多模态+时空Transformer直冲高分，让你的论文不再灌水

关注gongzhonghao【CVPR顶会精选】

机器人，AI领域的"硬核玩家"，应用场景从工厂流水线到火星探测都在加速拓展，前景堪比"科幻照进现实"。这方向容易出成果，但想冲击顶会顶刊，可不是堆硬件、刷任务那么简单！算法、感知、控制要协同发力，还得踩准人机交互与具身智能的新趋势，才能真正脱颖而出。

今天小图给大家精选3篇CVPR有机器人方向的论文，请注意查收！

论文一：ROBOGROUND: Robotic Manipulation with Grounded Vision-Language Prior

方法：

首先，利用基于GLaMM的视觉语言模型解析图像与自然语言指令，生成目标物体与放置区域的精确分割掩码。然后，将这些掩码通过通道级拼接与Grounded Perceiver模块融合到策略网络，使模型在局部特征关注中获得精确空间引导。最后，借助高多样性仿真数据集联合训练，策略网络在外观、空间和常识推理任务中均展现出显著的跨任务与零样本泛化能力。

创新点：

首次将由大规模视觉语言模型生成的细粒度分割掩码引入机器人策略学习，兼具空间精度与跨任务泛化能力。
设计了结合通道拼接与"Grounded Perceiver"的双层掩码融合策略，有效保留关键空间信息指导操作。
构建了自动化仿真数据生成流水线，生成包含多干扰物、跨176类物体的高复杂度任务数据集。

论文链接：

https://cvpr.thecvf.com/virtual/2025/poster/34049

图灵学术论文辅导

论文二：RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments

方法：

首先，框架通过多时间尺度的Transformer编码器对感知到的视觉和状态信息进行建模，在捕捉细粒度短期特征的同时兼顾长程依赖。然后，利用跨任务、跨场景的大规模模仿数据进行联合训练，让模型在多样化经验中习得通用策略。最后，通过动作分层编码将任务拆解为抽象的高层规划与具体的低层操作，使机器人在长序列任务中能够平稳衔接动作并灵活应对环境变化。

创新点：

研究引入了多时间尺度的Transformer结构，统一建模短期精确操作与长期任务规划的时序依赖。
团队利用跨场景的大规模多任务模仿数据训练，让实验模型具备显著的跨任务迁移与零样本能力。
文章提出了动作分层编码策略，将复杂任务分解为高层意图与低层执行，从而提升执行稳定性。

论文链接：

https://cvpr.thecvf.com/virtual/2025/poster/33546

图灵学术论文辅导

论文三：AutoURDF: Unsupervised Robot Modeling from Point Cloud Frames Using Cluster Registration

方法：

系统通过多模态传感器采集RGB图像与点云数据，并利用显著性检测网络提取可能的目标区域。接着，将显著性结果与三维几何信息融合生成高精度的抓取候选点，并依据抓取可行性进行优选。最后，在多样化真实环境中部署该策略，显著提升了机器人在杂乱场景下的抓取成功率与执行效率。

创新点：

实验将视觉显著性检测与三维点云深度信息融合，用于精确分离目标与背景干扰。
团队设计了显著性引导的抓取候选生成策略，大幅减少无效抓取尝试。
构建了多场景、多物体密集摆放的数据集，并在真实机器人上验证方法的泛化能力。

论文链接：

https://cvpr.thecvf.com/virtual/2025/poster/33613

本文选自gongzhonghao【CVPR顶会精选】