vla

自动驾驶小学生

端到端与世界模型（2）：基于认知驱动的自动驾驶3.0CSAE青年学者论坛：小米汽车陈龙-基于认知驱动的自动驾驶3.0

Long-VLA：释放机器人长范围操作视觉-语言-动作模型的能力25年8月来自西湖大学、浙大、西安交大、未来区块链和隐私计算北京高精尖创新中心和电子科技大学（成都）的论文“Long-VLA: Unleashing Long-Horizon Capability of Vision Language Action Model for Robot Manipulation”。

盘点完今年CoRL最火的VLA论文，发现最强的机器人，竟是用“假数据”喂大的摘要在机器人学习领域，Conference on Robot Learning (CoRL) 已经成为全球顶级的学术舞台。每年的大会都会集中展示最前沿的研究成果，也常常预示着未来的发展方向。

想要成为计算机高手

RoboTwin--CVPR2025--港大--2025.4.17--开源Robotwin 2.0 是很好的工作，在社区中的反响非常好，所以来看看可能是RoboTwin2.0的前身的这篇文章。项目页：RoboTwin2.0 论文页 github

带电的小王

OpenVLA: 论文阅读 -- 开源视觉-语言-行动模型更多内容：XiaoJ的知识星球..图1：提出OpenVLA，7B的开源视觉-语言-动作模型（VLA）.

想要成为计算机高手

10. isaacsim4.2教程-RTX Lidar 传感器Isaac Sim的RTX或光线追踪Lidar支持通过JSON配置文件设置固态和旋转Lidar配置。每个RTX传感器必须附加到自己的视口或渲染产品，以确保正确模拟。

【中文翻译】SmolVLA：面向低成本高效机器人的视觉-语言-动作模型本文翻译自《SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics》，旨在促进相关技术在国内学术界的传播和发展。

SmolVLA: 让机器人更懂 “看听说做” 的轻量化解决方案今天，我们介绍了 SmolVLA，这是一个轻量级 (450M 参数) 的开源视觉 - 语言 - 动作 (VLA) 模型，专为机器人领域设计，并且可以在消费级硬件上运行。

想要成为计算机高手

半成品的开源双系统VLA模型，OpenHelix-发表于2025.5.6https://openhelix-robot.github.io/随着OpenVLA的开源，VLA如何部署到真实的机器人上获得了越来越多的关注，各界人士也都开始尝试解决OpenVLA的效率问题，双系统方案是其中一个非常热门的方案，但是双系统的方案有很多，比如Helix，理想汽车MindVLA等，但是缺乏相关开源工作，难以继续研究。

想要成为计算机高手

Helix:一种用于通用人形控制的视觉语言行动模型目录1. 介绍Helix1.1 多机器人协作（Multi-Robot Collaboration）1.2 零样本泛化（Zero-Shot Generalization）

论文阅读笔记——ROBOGROUND: Robotic Manipulation with Grounded Vision-Language PriorsRoboGround 论文一类中间表征是语言指令，但对于空间位置描述过于模糊（“把杯子放桌上”但不知道放桌上哪里）；另一类是目标图像或点流，但是开销大；由此 GeoDEX 提出一种兼具二者的掩码。

VLA 论文精读（十八）π0.5: a Vision-Language-Action Model with Open-World Generalization这篇文章是2025年发表在arxiv上的一篇VLA领域，这篇论文出来的第二天我就粗略读了一遍，但实在意犹未尽所以又写了这篇博客。这篇文章给我的震撼其实不是他们有多强泛化能力的模型，而是他们所有的机械臂构型与之前完全不一样了，Physical Intelligence 是一家打通了从硬件到算法的公司，他们与国内的银河通用、星海图等公司都有非常紧密的合作，我也是偶然才知道 Physical Intelligence 其实一直在给两家公司的本体构型提改动需求，也就是说这家公司其实摸到了正真适合VLA模型的硬件结

VLA论文精读（十四）PointVLA: Injecting the 3D World into Vision-Language-Action Models这篇论文瞄准的是2025年在arxiv上发布的一篇VLA领域论文。这篇文章最大的创新点在于将3D点云信息作为补充条件送入模型，而不是DP3一样只用纯3D数据从头训练模型，按照作者的说法这样可以在保留模型原有2D解释能力的同时添加了其3D能力，并且可以有效识别真实物体与2D照片，作者设置的各种任务中都超越了baseline模型。

【论文速递】2025年04周（Robotics/Embodied AI/LLM）作者: DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingx

自动驾驶VLA模型技术解析与模型设计2025年被称为“VLA上车元年”，以视觉语言动作模型（Vision-Language-Action Model, VLA）为核心的技术范式正在重塑智能驾驶行业。VLA不仅融合了视觉语言模型（VLM）的感知能力和端到端模型的决策能力，更引入了“思维链”技术，实现了全局上下文理解与类人推理能力，革命性技术的落地将推动智能驾驶从“功能时代”迈向“体验时代”，并可能在未来两年内改写智能驾驶市场的竞争格局。2025年的智能驾驶：VLA上车元年

星落秋风五丈原

Nvidia GTC AI 会议：理想汽车【VLA：迈向自动驾驶物理智能体的关键一步】Nvidia GTC AI 会议上，理想汽车介绍了内部VLA相关算法，理想在智驾新技术上的新技术探索其实比较领先，以下整理了这次介绍的相关技术点

π0开源了且推出自回归版π0-FAST——打造机器人动作专用的高效Tokenizer：比扩散π0的训练速度快5倍但效果相当过去的半个多月进一步讲，以上的「大模型和具身」这两大热点是否可以结合呢？那可太多了，详见此文《2024具身智能模型汇总：从训练数据、动作预测、训练方法到Robotics VLM、VLA》

[EAI-027] RDT-1B，目前最大的用于机器人双臂操作的机器人基础模型论文标题：RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation 论文作者：Songming Liu, Lingxuan Wu, Bangguo Li, Hengkai Tan, Huayu Chen, Zhengyi Wang, Ke Xu, Hang Su, Jun Zhu 论文链接：https://arxiv.org/abs/2410.07864v1 项目主页：https://rdt-robotics.github.io/rdt-

[EAI-028] Diffusion-VLA，能够进行多模态推理和机器人动作预测的VLA模型论文标题：Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression 论文作者：Junjie Wen, Minjie Zhu, Yichen Zhu, Zhibin Tang, Jinming Li, Zhongyi Zhou, Chengmeng Li, Xiaoyu Liu, Yaxin Peng, Chaomin Shen, Feifei Feng 论文链接：https://arxiv

[EAI-023] FAST: Efficient Action Tokenization for Vision-Language-Action Models论文标题：FAST: Efficient Action Tokenization for Vision-Language-Action Models 论文作者：Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine 论文链接：https://arxiv.org/abs/2501.09747 论文出处：/ 论文被引：/ 项