vla模型

具身智能之心

Sunday的ACT-1分享！未使用任何机器人本体数据训练的VLA，解决超长时程任务对于具身智能的场景而言，家居环境我认为是终局目标，那么在这个路线上的 sunday 展示了很不错的进展，demo 展示了超级长程的居家任务，其中赵子豪（Tony Zhao）和迟宬（Cheng Chi）两位创始人，也是 ALOHA 、UMI 、ACT、Diffusion Policy 这些工作的作者。

具身智能之心

仅需300美元！先进VLA模型与低成本硬件相结合低成本视觉-语言-动作（VLA）系统，匹兹堡大学研究团队通过300美元级6DOF机械臂搭配自适应视野集成器，解决传统VLA硬件昂贵、泛化性差的痛点，在真实场景中实现超越现有方法的性能，推动机器人基础模型的普及。

具身智能之心

西湖大学最新！RobustVLA：面向VLA模型的鲁棒性感知强化后训练方法（优于SOTA方案）视觉-语言-动作模型已成为强大的通用机器人操作策略，这得益于大规模多模态预训练。然而，在分布外的部署场景中，这些模型往往无法可靠地实现泛化，因为在这些场景中，观测噪声、传感器误差或执行扰动等不可避免的干扰现象十分普遍。虽然近期基于强化学习的后训练为适配预训练的VLA模型提供了一种实用方法，但现有方法主要强调奖励最大化，却忽视了应对环境不确定性的鲁棒性。

具身智能之心

从视频生成到机器人操控：VideoVLA 开启通用机器人新范式在机器人操控领域，视觉 - 语言 - 动作（VLA）模型虽已实现语言指令驱动的任务执行，但在陌生物体处理、跨机器人技能迁移等泛化能力上仍存在瓶颈。现有方案多依赖预训练视觉语言理解模型，难以突破训练数据的场景限制。

机器觉醒时代

具身智能VLA困于“数据泥潭”，人类活动视频数据是否是“破局之钥”？尽管当前的视觉-语言-动作（VLA）模型已展现出显著进展，但其在新场景和与复杂物体交互中的性能会显著下降，在遵循指令方面落后于像LLaVA 这样的大型多模态模型（LMM）。

我是有底线的