我自己的原文哦~ https://blog.51cto.com/whaosoft143/14390796
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#xxx
....
#特斯拉再一次预判潮水的方向
10月25日,特斯拉AI负责人阿肖克·埃卢斯瓦米(Ashok Elluswamy)在X上发布长文,揭秘了特斯拉FSD的技术方法论。他重点解释了为什么特斯拉要选择端到端神经网络模型,以及在实践中遇到的问题和解决方案。
2023年6月端到端以后,特斯拉再没有公布过新的技术方向。而在特斯拉闭麦两年后,国内自动驾驶公司又先后在VLA,世界模型上争论不休。
这一次,特斯拉再一次通过一篇论文回到舞台中央。在国内争论不断地端到端、VLA和世界模型,特斯拉又是如何理解的。接下来,在这篇文章里,我们会提到多个反共识。

特斯拉在长文中解释了为什么要选择端到端神经网络。日常驾驶里,随时随地都存在"电车难题、二阶效应(如果A,那么B)"等长尾问题,规则写不出来,很多场景也无法提前预判。只能通过AI的方式来解决。关于这一点,国内自动驾驶公司其实已经解释过很多次了。
端到端模型存在难以调试和解释的问题,特斯拉提出了两个解决办法,让模型在输出驾驶指令的同时,也输出可供理解的"中间结果":
视觉重建:利用「生成式高斯泼溅」技术,在220毫秒内,根据摄像头视频实时生成周围环境的动态3D模型,让工程师能"看见"AI眼中的世界。
特斯拉官方叫世界模拟器。他可以模拟、合成自动驾驶的"孪生世界"。而生成的视频既可以在云端预训练模型,也可以在车端给车辆实时提供决策帮助。其实就是国内企业常说的世界模型,提出者主要是蔚来和华为;

语言解释:训练AI用自然语言来解释自己的行为。一个小型化的语言推理模型,其实已经在FSD v14.x版本中运行了。
"训练AI用自然语言来解释自己的行为。"就是VLA中L(Language)的部分,通过语言的方式解释智驾行为,给出行为轨迹。理想MAX版车主应该是比较熟悉了。"小型化的语言推理模型。"就是CoT思维链。提出者主要是理想、小鹏、自动驾驶公司元戎启行。

在此之前,我们需要先理清楚端到端、VLA、世界模型各个概念之间的关系。
端到端大家都已经非常熟悉了就不过多介绍了。这里我们提出了第一个反共识,很多人认为端到端就是在此前技术的升级,基于原来的技术架构加一些新的代码。其实不是,端到端是一个完全颠覆的模型,所有的设计思路、代码编写、验证方式全部推倒重来。卓驭科技沈劭劼甚至将其形容为,一直到端到端自动驾驶行业才迎来一次彻底升级变革。反应在产品端我们看到的情况就是切换端到端之后智能驾驶变得更有"人味"了。还有2个小细节值得注意:
1、端到端和规则代码并不冲突,即便华为、地平线、Momenta等头部企业都已经切换到端到端方案,但是依然会采用一些规则兜底,华为在其中使用的比重更多,因为目前自主学习的模型还存在很多不合理的地方,华为为了保证体验投入了大量人力去修复这些东西。
2、目前整个行业其实端到端一段式和两段式并存,包括Momenta、卓驭、轻舟智航、博世等其实都有两段式端到端方案。
再来看另一个概念VLA,也就是大家常说的 **V(Vision视觉)-L(Language语言)-A(Action动作)。**通俗点讲就是把视觉、语言信息放在一个模型里直接输出行为轨迹。VLA本质上可以理解成端到端的延伸,只不过加入了语言信息,也就是L(Language语言)的部分。
这里我们进入第二个反共识,很多人将VLA中的"Language"理解为在模型中加入了声音或者文字之类的信息,相当于多了一个信息输入。其实不是,而是模型把收集到的信息通过语言的方式显示出来,让它更加可视化,理想车主应该不陌生,就是大家在智驾屏幕上经常看到的选路的画面。
世界模型通俗点讲就是根据提示生成视频,提示可以是文字图片、声音任何元素。最直观的案例就是Sora。
这里我们再来看第三个反共识,虽然国内车企对这3个技术争论不休,但他们并不是非此即彼,而是层层递进。端到端是基座,VLA是升级,而世界模型是终极形态。按照特斯拉的描述应该是3个技术都用了。
而国内自动驾驶技术路线分为三派,智驾公司主要是端到端,包括地平线,博世,Momenta都是这一派的主要玩家。很大一部分原因是这个成本投入最低(这里只是相对另外两个技术而言),而且稳定度最高(主要指的是现阶段),而且更容易规模化部署,符合智驾公司服务多客户的品牌属性。
VLA是争议最大的一个,理想、小鹏、元戎启行是VLA的忠实拥趸者,但VLA的长期价值遭到了不少业内大佬的反对,主要是华为和蔚来高层,他们也是世界模型的拥趸者。
来看看蔚来一号位任少卿对VLA的理解:
VLA 本质还是语言模型的模态扩展。
LLM(Large Language Model)只包含语言
VLM(Vision Language Model)加了视觉
VLA(Vision Language Action)再加上了动作
这些扩展虽然加入了新模态,但 "根" 依然在语言模型上。它像是在原有的语言体系上不断 "加模态"。
但世界模型不是 "语言加法",而是要建立一套高带宽的认知系统。因为语言通道的带宽太低了。人类如果没有眼睛,只靠嘴和耳朵交流,效率会有多低?眼睛带来的视觉带宽就大得多。
现在大部分 VLA、VLM 的做法,是先有一个语言模型基座,然后在一些图像数据上训练一个插件,把视觉转成语言,再输入到语言模型里。它的 "根" 还是语言,只是头上插了个视觉转换器。
这就是差别。世界模型要直接在视频端建立能力,而不是先转成语言。
语言模型的突破在于,它把语言对应的概念和逻辑关系建模了出来。比如 "小狗" 或 "汽车",在模型中是一个清晰的概念,模型能基于这些概念做理解和生成,这是过去 AI 没有的。
但语言是低带宽的,只能描述有限信息。比如,一张交通照片,你很容易用视觉看到 "有几辆车、什么状态",但要用文字完整描述却极其复杂。更不用说动态场景:匝道口拥堵、车辆绕行、驾驶者的表情和意图。
所以,语言模型解决的是 "概念认知",但在 "时空认知"------真实世界的四维时空(空间 + 时间)建模上仍有明显短板。比如复杂的交通场景、物理规律。
自动驾驶需要的恰恰就是 "时空认知",这个空白,正是世界模型要去补的。世界模型的目标是建立基于视频/图像的 "时空认知",补齐语言模型的短板。
VLA目前的主要参与者就是理想和小鹏。按照任少卿的说法,二者的底色都是语言模型。其实已经讲的比较清楚了,我就不再翻译了。这个说法和曹旭东的说法基本一致,来看看曹旭东原话:
VLA 可能更强调语言这部分,而 WA 则更多强调对世界模型的构建,或者说对世界的理解。VLA 如果把中间的 "L"(语言)拿掉,核心就是 "VA",而 WA 里的 "W"(世界)涵盖范围更广,既可以包括视觉,也可以包括激光雷达、毫米波雷达。
但实际上,在所有这些传感器里,真正信息量最丰富的还是视觉,所以 WA 也可以认为其最主要的成分也是 "V"(视觉),这就是 WA 和 VLA 之间共同的地方。
判断是,语言在驾驶过程中的贡献肯定存在,但不一定是最本质的。因为现在的大语言模型虽然能做奥数题、写代码、说英文、写诗,但这些能力是不是一个老司机必备的?在我们看来,可能不一定需要。
所以回到最本质的问题,把所有的信息转换成语言是不是一个必要的步骤,任少卿,曹旭东、给出的都是否定答案,他们都强调空间智能的概念,也就是所谓的世界模型。这里呼应了华为的观点,VLA的强项在于语言,但智能驾驶更需要的是对空间的理解。再向上延展"空间智能"这个概念大家是不是很熟悉。没错,就是全球AI教母李飞飞老师提出的概念,李飞飞最开始建立ImageNet Challenge,前面几期的冠军,一直到辛顿团队的AlexNet(CNN卷积神经网络架构),本质上还是大语言模型,但最后李飞飞开始转向了空间智能。
还有一个需要强调的是,世界模型可以在云端也可以在车端,云端主要是训练模型,然后下放在车端让另一个模型(这个模型可以是端到端)去跑。
比如为了评价模型的好坏。特斯拉在云端开发了一个「神经世界模拟器」。这个模拟器本身也是一个强大的AI,能实时生成以假乱真的虚拟世界。它不仅能复现历史数据,还能创造各种极端的事故场景,对FSD进行"地狱模式"的压力测试。本质上,特斯拉为FSD造了一个超现实的"驾驶游戏",让它在里面7x24小时不间断地"打怪升级"。而在这个能力下训练的模型再下放到车端可以说是降为打击,而且在云端训练的模型熟悉的世界模型的环境,在车端同样的环境里就会变得更加游刃有余。

到这,其实整体的架构已经就比较清楚了,端到端是自动驾驶真正由人工进入智能的开始,VLA是端到端基础上进一步加入了语言模型,而世界模型是对空间的理解和重塑,跟前两者是完全不同的东西。
另外还有一点需要强调的是,自动驾驶里,虽然大家都在说一段式端到端,但并不是整个系统里只有一个模型,要保证系统高效运转,一个系统里可能有很多个模型。理想最开始的VLM其实就是包含了2个模型,端到端和VLM,也就是所谓的快慢思考,端到端负责快思考,快决策,VLM负责慢思考,然后把结果反馈给端到端,由端到端来完成决策,而VLA就是一个模型思考和决策。到了世界模型又是多个模型,端到端和世界模型。此外,在这些模型中,大部分企业又加入了强化学习模型。
而且现在蔚来和Momenta等很多企业都在强调强化学习大模型的作用,让自动驾驶系统主动去探索"好的行为", 好的行为会获得奖励,坏的行为会受到惩罚。这样才能跳出传统的模仿学习模式,进入强化学习的模式。这就好比中学生、大学生阶段都在跟着老师学习,但大学毕业进入社会后,就得靠自己的能力去锻炼、去探索,只有这样才有可能超越老师的水平,甚至超越人类驾驶员的水平。
这里插一句题外话,不管用什么底座模型,与激光雷达的数据都不冲突,也有技术人员认为,小鹏目前的技术路线比较摇摆,将来还有可能再重新请回激光雷达。这里可以一起观望一下。
此前,Transformer,BEV,占用网络,端到端,几乎每一个打的技术变革都由特斯拉率先发起(很多技术并不是特斯拉发明,但它最早用在自动驾驶领域),国内智驾公司开始迅速跟进。当特斯拉在VLA、世界模型等问题上闭口不谈时,人们以为特斯拉已经江郎才尽,特斯拉通过一篇论文演讲强势回归,押中了当下所有主流技术方向,并且给出了系统性实战解析。再一次预判潮水的方向。

....