【具身智能】具身机器人VLA算法入门及实战(四):具身智能VLA技术行业进展

具身机器人VLA算法入门及实战(四):具身智能VLA技术行业进展

一、 理想

官方技术报告

二、小鹏

⼩鹏汽⻋在新X9发布上市之前,做了⼀场AI技术分享会,再次强调了⾃⼰是⼀家AI驱动的技术公司。⽽这次技术分享会的⼀个核⼼内容就是:⼩鹏汽⻋正在研发VLA基座模型,也在研发"世界模型",⽽且⼩鹏汽⻋已经拥有10 EFLOPS的算⼒。

可以说,⼩鹏汽⻋整个智驾技术路线也已经向业界下⼀代主流路线VLA开始迭代。

三、元戎启⾏

元戎启⾏则更进⼀步,于2025年1⽉22⽇宣布与某头部⻋企合作,基于英伟达Thor芯⽚推出VLA量产⻋型,计划年内交付消费者,元戎还透露将在Robotaxi领域探索VLA应⽤,展现了技术普适性的野⼼。

3⽉30⽇,在百⼈会智能汽⻋创新技术与产业论坛上,元戎启⾏CEO周光表⽰已完成VLA模型(多模态的视觉语⾔动作模型)的道路测试,并将基于VLA模型打造全系列的智能驾驶系统产品,涵盖激光雷达⽅案与纯视觉⽅案,适配多种芯⽚平台,预计今年将有超5款搭载VLA模型的⻋型进⼊消费者市场。周光认为,VLA模型作为当下最先进的技术,使汽⻋成为了AI智能体,在需求暴涨的背景下,VLA模型将重塑市场格局。https://www.stcn.com/article/detail/1626804.html

四、小米

2025年3⽉中旬,⼩⽶汽⻋与华中科技⼤学联合发表论⽂:ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation,提出了⼀种全新的端到端⾃动驾驶框架 ORION,旨在解决现有⽅法在闭环评估中因果推理能⼒不⾜的问题。

核⼼内容:

  1. 研究背景与挑战
  • 端到端⾃动驾驶的瓶颈:传统端到端⽅法在闭环评估中因因果推理能⼒有限,难以做出正确决策。尽管视觉语⾔模型(VLM)具备强⼤的理解和推理能⼒,但其语义推理空间与动作空间的数值轨迹输出存在鸿沟,导致闭环性能不佳。
  • 现有⽅法的缺陷
    • 直接⽂本输出:VLM 不擅⻓数值推理,且⾃回归机制⽆法处理⼈类规划的不确定性。
    • 元动作辅助:VLM 与经典端到端⽅法解耦,⽆法协同优化轨迹和推理过程。

五、参考⽂献

关键Paper

VLA其他相关论⽂速递

⼩⽶

ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation

理想VLA相关论⽂

理想VLA技术报告PPT

技术报告

Report

相关推荐
100个铜锣烧2 小时前
高级提示技术:Chain-of-Thought与ReAct——让大模型学会“思考”和“行动”
人工智能·大模型·提示词工程
JackHCC2 小时前
快手OneRetrieval:可编辑生成式电商召回
人工智能·机器学习
前端之虎陈随易2 小时前
编程语言级别的Skill市场,AI Agent 的未来形态
前端·vue.js·人工智能·typescript·node.js
QiLinkOS3 小时前
第三视觉理解徐玉生与他的商业活动(30)
大数据·c++·人工智能·算法·开源协议
武汉唯众智创3 小时前
当汉字成为心理CT:AI汉字联想投射分析的技术实现与心理评估价值
人工智能·ai心理健康·ai心理评估·本土化心理测评·校园心理健康解决方案·ai心理监测·多模态情绪模型
疯狂打码的少年3 小时前
【操作系统】页面置换算法(OPT/FIFO/LRU)
算法
Longvox3 小时前
Agent为什么会死循环?
人工智能·ai编程
小O的算法实验室3 小时前
2026年CIE,优化客货协同运输:综合地铁系统的列车容量动态分配
算法
陈天伟教授3 小时前
FreeCAD 启动后小窗口闪现即退的解决思路
人工智能·机器人·工业设计
酒旅Agent开发实战4 小时前
AI 旅行规划助手如何接入真实酒旅数据:从自然语言到酒店预订的全流程 MCP 实战
人工智能·ai·旅游·skill·酒店api·机票api