iclr 2026 - iclr 2026技术,学习,经验文章

具身智能之心

6 个月前

ICLR 2026中稿工作VLASER: 究竟哪些多模态能力和数据对提升机器人的控制表现最关键？在具身智能（Embodied AI）的浪潮中，研究界致力于将强大的视觉-语言模型（VLM）转化为具备机器人操控能力的 Vision-Language-Action (VLA) 模型。然而，这一转化过程面临着一道巨大的“鸿沟”：上游 VLM 通常依托海量互联网数据预训练，拥有卓越的通用推理能力；而下游 VLA 却需要在具体的物理环境中实现精准的动作控制。