【具身智能】具身机器人VLA算法入门及实战(四):具身智能VLA技术行业进展

具身机器人VLA算法入门及实战(四):具身智能VLA技术行业进展

一、 理想

官方技术报告

二、小鹏

⼩鹏汽⻋在新X9发布上市之前,做了⼀场AI技术分享会,再次强调了⾃⼰是⼀家AI驱动的技术公司。⽽这次技术分享会的⼀个核⼼内容就是:⼩鹏汽⻋正在研发VLA基座模型,也在研发"世界模型",⽽且⼩鹏汽⻋已经拥有10 EFLOPS的算⼒。

可以说,⼩鹏汽⻋整个智驾技术路线也已经向业界下⼀代主流路线VLA开始迭代。

三、元戎启⾏

元戎启⾏则更进⼀步,于2025年1⽉22⽇宣布与某头部⻋企合作,基于英伟达Thor芯⽚推出VLA量产⻋型,计划年内交付消费者,元戎还透露将在Robotaxi领域探索VLA应⽤,展现了技术普适性的野⼼。

3⽉30⽇,在百⼈会智能汽⻋创新技术与产业论坛上,元戎启⾏CEO周光表⽰已完成VLA模型(多模态的视觉语⾔动作模型)的道路测试,并将基于VLA模型打造全系列的智能驾驶系统产品,涵盖激光雷达⽅案与纯视觉⽅案,适配多种芯⽚平台,预计今年将有超5款搭载VLA模型的⻋型进⼊消费者市场。周光认为,VLA模型作为当下最先进的技术,使汽⻋成为了AI智能体,在需求暴涨的背景下,VLA模型将重塑市场格局。https://www.stcn.com/article/detail/1626804.html

四、小米

2025年3⽉中旬,⼩⽶汽⻋与华中科技⼤学联合发表论⽂:ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation,提出了⼀种全新的端到端⾃动驾驶框架 ORION,旨在解决现有⽅法在闭环评估中因果推理能⼒不⾜的问题。

核⼼内容:

  1. 研究背景与挑战
  • 端到端⾃动驾驶的瓶颈:传统端到端⽅法在闭环评估中因因果推理能⼒有限,难以做出正确决策。尽管视觉语⾔模型(VLM)具备强⼤的理解和推理能⼒,但其语义推理空间与动作空间的数值轨迹输出存在鸿沟,导致闭环性能不佳。
  • 现有⽅法的缺陷
    • 直接⽂本输出:VLM 不擅⻓数值推理,且⾃回归机制⽆法处理⼈类规划的不确定性。
    • 元动作辅助:VLM 与经典端到端⽅法解耦,⽆法协同优化轨迹和推理过程。

五、参考⽂献

关键Paper

VLA其他相关论⽂速递

⼩⽶

ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation

理想VLA相关论⽂

理想VLA技术报告PPT

技术报告

Report

相关推荐
SHIPKING3935 分钟前
【AI应用开发设计指南】基于163邮箱SMTP服务实现验证登录
人工智能
yong999013 分钟前
基于SIFT特征提取与匹配的MATLAB图像拼接
人工智能·计算机视觉·matlab
知秋一叶12337 分钟前
Miloco 深度打通 Home Assistant,实现设备级精准控制
人工智能·智能家居
superman超哥37 分钟前
仓颉语言中基本数据类型的深度剖析与工程实践
c语言·开发语言·python·算法·仓颉
春日见1 小时前
在虚拟机上面无法正启动机械臂的控制launch文件
linux·运维·服务器·人工智能·驱动开发·ubuntu
Learner__Q1 小时前
每天五分钟:滑动窗口-LeetCode高频题解析_day3
python·算法·leetcode
————A1 小时前
强化学习----->轨迹、回报、折扣因子和回合
人工智能·python
阿昭L1 小时前
leetcode链表相交
算法·leetcode·链表
闻缺陷则喜何志丹2 小时前
【计算几何】仿射变换与齐次矩阵
c++·数学·算法·矩阵·计算几何
CareyWYR2 小时前
每周AI论文速递(251215-251219)
人工智能