CVPR 2025丨机器人如何做看懂世界

关注gongzhonghao【CVPR顶会精选】

写论文最怕什么?不是熬夜改格式,也不是参考文献乱成麻,最怕的是------论文刚写一半,发现你的研究方向已经被别人"抢跑"了。尤其在具身智能这个飞速发展的领域,变化简直像坐过山车:昨天还在用静态数据集训练模型,今天就有人用真实机器人走上街头采集动态交互数据了。

具身智能的研究,起初只是想让机器人"动起来",而如今,它正向着融合感知、推理、决策和物理交互的全栈能力狂奔,数据规模、任务多样性和跨模态技术都在飞跃式提升。跟不上节奏,论文可能还没投出去,就被新的SOTA甩在了身后。而小图今天要讲的,就是一个能帮你踩中具身智能浪潮而不被淘汰的新思路------它或许正是你下篇论文的灵感来源。

论文一:ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark

方法:

文章通过整合虚拟场景和真实场景,收集了386个RGB-D视频,并由人工标注生成了4324个问答对,确保了数据的多样性和高质量。在评估过程中,采用多轮筛选策略去除仅依赖常识即可回答的问题,确保了评估的严谨性。此外,通过在不同类型的LVLMs上进行广泛实验,验证了ECBench在评估具身认知能力方面的有效性。

创新点:

  • 首次将具身认知能力细分为30个维度,覆盖静态场景、动态场景与幻觉三大类,形成系统化评测框架。

  • 创新引入机器人中心问题设计,强调模型的自我认知与环境关系理解。

  • 提出ECEval混合评分体系,结合多级评分与二元评分,确保开放式与封闭式问题的公平精准评估。

论文链接:

https://cvpr.thecvf.com/virtual/2025/poster/33904

图灵学术论文辅导

论文2:CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos

方法:

作者首先收集2000+小时多地点、多天气、多时间段的城市步行和驾驶视频,并利用视觉里程计提取相对位姿生成动作标签,经过归一化处理消除尺度与形态差异。然后,模型接收历史图像特征、历史轨迹与目标位置编码,通过Transformer生成未来动作与到达状态预测,并在训练中加入特征幻觉损失、方向损失、L1损失和到达状态损失联合优化。最后,通过少量专家数据微调,使模型在真实复杂城市环境中显著优于现有方法,并展现良好的跨域与数据扩展能力。

创新点:

  • 提出利用网络规模的城市步行与驾驶视频,通过视觉里程计自动生成动作标签,实现低成本大规模模仿学习。

  • 设计通用且可扩展的数据处理流程,可跨领域与跨形态迁移导航策略。

  • 引入特征幻觉损失,在预测未来动作的同时引导模型生成更贴近未来观测的表示,提高导航精度。

论文链接:

https://cvpr.thecvf.com/virtual/2025/poster/33371

图灵学术论文辅导

论文三:Ges3ViG: Incorporating Pointing Gestures into Language-Based 3D Visual Grounding for Embodied Reference Understanding

方法:

作者首先整合并标注来自真实机器人和仿真环境的多模态数据,涵盖静态图像、视频与传感器信息,并构建多类型问答任务以全面衡量机器人视觉理解与推理能力。随后,采用多阶段训练策略,先在通用VQA数据上进行预训练以学习基础语言与视觉对齐能力,再在RoboVQA数据上微调以强化机器人相关语义与推理。最后,通过在仿真与真实机器人任务上的评测,将问答性能与实际执行效果进行对比分析,验证模型在真实场景中的适应性与实用性。

创新点:

  • 构建涵盖机器人多场景、多模态任务的RoboVQA数据集,融合真实与仿真数据,覆盖感知、推理、规划等多类问题。

  • 设计面向机器人的视觉语言模型训练流程,使其在理解场景语义的同时具备与机器人控制相关的推理能力。

  • 提出跨模态任务评测方法,将VQA性能与机器人真实任务执行效果关联,确保模型具备可落地性。

论文链接:

https://cvpr.thecvf.com/virtual/2025/poster/35108

本文选自gongzhonghao【CVPR顶会精选】

相关推荐
NAGNIP5 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab7 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab7 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP10 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年10 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼11 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS11 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区12 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈12 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang12 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx