技术栈

iclr 2026

具身智能之心
6 小时前
具身智能·vlm·iclr 2026
ICLR 2026中稿工作VLASER: 究竟哪些多模态能力和数据对提升机器人的控制表现最关键?在具身智能(Embodied AI)的浪潮中,研究界致力于将强大的视觉-语言模型(VLM)转化为具备机器人操控能力的 Vision-Language-Action (VLA) 模型 。然而,这一转化过程面临着一道巨大的“鸿沟”:上游 VLM 通常依托海量互联网数据预训练,拥有卓越的通用推理能力;而下游 VLA 却需要在具体的物理环境中实现精准的动作控制 。
我是有底线的