【具身智能】具身机器人VLA算法入门及实战（四）：具身智能VLA技术行业进展

具身机器人VLA算法入门及实战（四）：具身智能VLA技术行业进展

- [一、理想](#一、理想)
- 二、小鹏
- 三、元戎启⾏
- 四、小米
- 五、参考⽂献

一、理想

官方技术报告

二、小鹏

⼩鹏汽⻋在新X9发布上市之前，做了⼀场AI技术分享会，再次强调了⾃⼰是⼀家AI驱动的技术公司。⽽这次技术分享会的⼀个核⼼内容就是：⼩鹏汽⻋正在研发VLA基座模型，也在研发"世界模型"，⽽且⼩鹏汽⻋已经拥有10 EFLOPS的算⼒。

可以说，⼩鹏汽⻋整个智驾技术路线也已经向业界下⼀代主流路线VLA开始迭代。

三、元戎启⾏

元戎启⾏则更进⼀步，于2025年1⽉22⽇宣布与某头部⻋企合作，基于英伟达Thor芯⽚推出VLA量产⻋型，计划年内交付消费者，元戎还透露将在Robotaxi领域探索VLA应⽤，展现了技术普适性的野⼼。

3⽉30⽇，在百⼈会智能汽⻋创新技术与产业论坛上，元戎启⾏CEO周光表⽰已完成VLA模型（多模态的视觉语⾔动作模型）的道路测试，并将基于VLA模型打造全系列的智能驾驶系统产品，涵盖激光雷达⽅案与纯视觉⽅案，适配多种芯⽚平台，预计今年将有超5款搭载VLA模型的⻋型进⼊消费者市场。周光认为，VLA模型作为当下最先进的技术，使汽⻋成为了AI智能体，在需求暴涨的背景下，VLA模型将重塑市场格局。https://www.stcn.com/article/detail/1626804.html

四、小米

2025年3⽉中旬，⼩⽶汽⻋与华中科技⼤学联合发表论⽂：ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation，提出了⼀种全新的端到端⾃动驾驶框架 ORION，旨在解决现有⽅法在闭环评估中因果推理能⼒不⾜的问题。

核⼼内容：

研究背景与挑战

端到端⾃动驾驶的瓶颈：传统端到端⽅法在闭环评估中因因果推理能⼒有限，难以做出正确决策。尽管视觉语⾔模型（VLM）具备强⼤的理解和推理能⼒，但其语义推理空间与动作空间的数值轨迹输出存在鸿沟，导致闭环性能不佳。
现有⽅法的缺陷
- 直接⽂本输出：VLM 不擅⻓数值推理，且⾃回归机制⽆法处理⼈类规划的不确定性。
- 元动作辅助：VLM 与经典端到端⽅法解耦，⽆法协同优化轨迹和推理过程。

五、参考⽂献

关键Paper

VLA其他相关论⽂速递

⼩⽶

ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation

理想VLA相关论⽂

理想VLA技术报告PPT

• 技术报告

Report