NVIDIA发布端到端自动驾驶框架Hydra-MDP

自动驾驶是目前人工智能领域的一个主要分支,目前特斯拉的FSD确实是为数不多的大模型框架。与其说特斯拉是一个造车公司,不如说是一个人工智能大数据公司。特斯拉每天靠行驶在道路上的汽车搜集的道路数据不胜其数,而拥有海量的数据是人工智能领域成功的关键。

端到端自动驾驶的工作原理

自动驾驶汽车的开发竞赛不是短跑,而是一场永无止境的铁人三项赛,其中有三个不同但至关重要的部分组成:AI 训练、AI自动模拟和自动驾驶。每个部分都需要自己的加速计算平台,而专为这些步骤构建的全栈系统共同构成了一个强大的人工智能系统。

Hydra-MDP 提供了一个通用框架,展示了如何通过基于规则的规划器增强基于机器学习的规划。这种集成系统确保模型不仅模仿人类的驾驶行为,还遵守交通规则和安全标准,解决了传统模仿学习的局限性。Hydra-MDP 的数据驱动缩放定律证明了其稳健性和适应性。通过使用具有大量数据和 GPU 预训练基础模型,Hydra-MDP 展示了其可扩展性和持续改进的潜力。

为了实现这一点,首先在NVIDIA DGX等 AI 超级计算机上训练模型。然后使用NVIDIA Omniverse平台在NVIDIA OVX系统上运行,在模拟中对其进行测试和验证,最后进入正式的车辆系统中,NVIDIA DRIVE AGX平台通过模型实时处理传感器数据。

构建一个能够在复杂的物理世界中安全导航的自主系统极具挑战性。该系统需要全面感知和理解其周围环境,然后在几分之一秒内做出正确、安全的决策。这需要像人类一样的态势感知能力来处理潜在的危险或罕见情况。

AV 软件开发传统上基于模块化方法,具有用于对象检测和跟踪、轨迹预测以及路径规划和控制的独立组件。端到端自动驾驶系统使用统一模型接收传感器输入并生成车辆轨迹,从而简化这一过程,有助于避免过于复杂的系统,并提供更全面、数据驱动的方法来处理现实场景。

拥抱多模式和多目标规划的复杂性

一个基础教训是必须采用多模式和多目标规划。传统的端到端自动驾驶系统通常专注于单模态和单目标,限制了其在现实世界中的有效性。Hydra-MDP 集成了针对安全性、效率和舒适度等多项指标量身定制的多种轨迹。这确保了模型能够适应复杂的驾驶环境,而不仅仅是模仿人类驾驶员。

Hydra-MDP 架构

Hydra-MDP 的开发教会了NVIDIA几个重要的经验教训,这些经验教训塑造了Hydra-MDP 架构。Hydra-MDP 结合了人类和基于规则的知识提炼,创建了一个强大而多功能的自动驾驶模型。拥抱多模式和多目标规划的复杂性是自动驾驶的主要任务,不能仅仅局限于单目标,单模式的方式,而是学习人类的驾驶方式,处理多维度的数据,接受多目标规划的复杂性。

多目标 Hydra-distillation 是一个师生多模式框架,是Hydra-MDP方法中的关键策略。通过聘用多位专业教师(包括人类和基于规则的教师),该模型学会预测符合各种基于模拟的自动驾驶轨迹。这种技术增强了模型在不同驾驶条件下的泛化能力。结合基于规则的规划器提供了一个结构化的框架,而人类教师则引入了适应性和细致的决策能力,这对于应对不可预测的情况至关重要。

传统方法通常会将感知和规划拆分为不同的、不可微分的步骤,从而丢失宝贵的信息。Hydra-MDP 的端到端架构将感知和规划无缝集成,并在整个决策过程中保持环境数据的丰富性。这种集成可实现更明智、更准确的预测。

Hydra-MDP 的感知网络以 Transfuser 基线为基础,结合了 LiDAR 和摄像头输入的功能。这种多模态融合有助于模型更好地理解和应对复杂的驾驶环境。

对整个训练数据集进行模拟可生成各种指标的真实模拟分数。然后,这些数据用于监督训练过程,使模型能够从各种模拟驾驶场景中学习。这一步强调了广泛的模拟对于弥合理论性能和实际适用性之间的差距的重要性。

Hydra-MDP采用了混合编码器和子分数集成等技术来整合模型优势。这提高了 Hydra-MDP 的稳健性,并确保最终模型能够高精度地处理各种驾驶场景。集成技术平衡了计算效率和性能,这对于实时应用至关重要。

Hydra-MDP 的开发是一个创新、实验和持续学习的过程。通过采用多模式和多目标规划、利用多目标蒸馏以及通过大量模拟数据进行改进,Hydra-MDP创建了一个性能远超现有最先进方法的模型。这些经验为 Hydra-MDP 的成功做出了贡献,并为未来自动驾驶的发展提供了宝贵的意见。

https://arxiv.org/html/2406.06978v1
https://developer.nvidia.com/
更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技

动画详解transformer 在线教程

相关推荐
数据分析能量站3 分钟前
神经网络-AlexNet
人工智能·深度学习·神经网络
Ven%9 分钟前
如何修改pip全局缓存位置和全局安装包存放路径
人工智能·python·深度学习·缓存·自然语言处理·pip
szxinmai主板定制专家23 分钟前
【NI国产替代】基于国产FPGA+全志T3的全国产16振动+2转速(24bits)高精度终端采集板卡
人工智能·fpga开发
YangJZ_ByteMaster31 分钟前
EndtoEnd Object Detection with Transformers
人工智能·深度学习·目标检测·计算机视觉
Anlici32 分钟前
模型训练与数据分析
人工智能·机器学习
余~~185381628001 小时前
NFC 碰一碰发视频源码搭建技术详解,支持OEM
开发语言·人工智能·python·音视频
唔皇万睡万万睡1 小时前
五子棋小游戏设计(Matlab)
人工智能·matlab·游戏程序
视觉语言导航2 小时前
AAAI-2024 | 大语言模型赋能导航决策!NavGPT:基于大模型显式推理的视觉语言导航
人工智能·具身智能
volcanical2 小时前
Bert各种变体——RoBERTA/ALBERT/DistillBert
人工智能·深度学习·bert
知来者逆2 小时前
Binoculars——分析证实大语言模型生成文本的检测和引用量按学科和国家明确显示了使用偏差的多样性和对内容类型的影响
人工智能·深度学习·语言模型·自然语言处理·llm·大语言模型