nvidia/PhysicalAI-Autonomous-Vehicles数据集

根据提供的 Hugging Face 数据集页面内容,以下是对 nvidia/PhysicalAI-Autonomous-Vehicles 数据集的详细解析。该数据集是 NVIDIA 发布的大规模、多传感器自动驾驶数据集,主要用于支持端到端驾驶系统的研究与开发。


📌 数据集概览

  • 发布方:NVIDIA Corporation
  • 总时长1,700 小时驾驶数据
  • 片段数量306,152 个片段 ,每个片段 20 秒
  • 地理覆盖 :采集自 25 个国家2,500 多座城市(美国占 50%,其余来自 24 个欧盟国家)
  • 总大小 :约 133 TB
  • 许可协议 :需同意 NVIDIA Autonomous Vehicle Dataset License Agreement 方可访问,允许用于自动驾驶相关商业/非商业研究。

🌍 数据多样性

页面提供了详细的环境和交通多样性描述:

  • 交通密度:无车、轻度、中度、重度
  • 道路类型:高速公路、城市道路、住宅区、乡村道路
  • 天气:晴朗、雨天、雪天、雾天
  • 路面状况:干燥、湿滑、积雪/结冰
  • 时段:白天、夜晚
  • 基础设施:隧道、桥梁、环岛、铁路道口、收费站、坡道等

国家分布(按片段计数):

国家 片段数 国家 片段数 国家 片段数
美国 155,360 克罗地亚 4,961 罗马尼亚 2,719
德国 43,900 荷兰 4,932 卢森堡 2,620
法国 10,364 丹麦 4,581 拉脱维亚 2,173
意大利 8,658 斯洛文尼亚 4,301 匈牙利 1,960
瑞典 7,330 爱沙尼亚 4,128 保加利亚 932
西班牙 6,459 斯洛伐克 4,122
葡萄牙 6,101 比利时 3,753
希腊 5,885 捷克 3,662
奥地利 5,451 立陶宛 3,392
芬兰 5,176 波兰 3,232

🛰️ 传感器配置与覆盖

传感器类型 数量 覆盖片段数 说明
摄像头 7 个 306,152(全部) 1080p/30fps,7个视角(前广角120°、前长焦30°、交叉左右120°、后左右70°、后长焦30°)
激光雷达 1 个 298,326 车顶360°旋转式LiDAR,10 Hz,点云经Draco编码
雷达 最多10个 160,761 包括短距(SRR)、中距(MRR)、长距(LRR),分布在车辆四周

此外,数据集还提供:

  • 自运动(ego motion)
  • 传感器标定数据(内参/外参)
  • 自动生成的机器标签(非人工真值)
  • 片段级元数据(便于按需筛选)

📁 文件组织结构

数据按传感器类型分块存储,每个块(chunk)包含约100个片段,以ZIP或Parquet格式提供。

复制代码
├── camera/
│   ├── camera_front_wide_120fov/
│   │   ├── camera_front_wide_120fov.chunk_0000.zip  # 内含 <uuid>.mp4 和帧时间戳.parquet
│   │   └── ...
│   └── camera_cross_left_120fov/ ...
├── lidar/
│   └── lidar_top_360fov/
│       ├── lidar_top_360fov.chunk_0000.zip          # 内含 <uuid>.lidar_top360_fov.parquet
│       └── ...
├── radar/
│   ├── radar_corner_front_left_srr_0/
│   │   ├── radar_corner_front_left_srr_0.chunk_0000.zip
│   │   └── ...
│   └── ...(共10个雷达位置)
├── calibration/
│   ├── camera_intrinsics.offline/                   # 离线优化的内参
│   ├── camera_intrinsics/                            # 原始内参
│   ├── lidar_intrinsics.offline/
│   ├── sensor_extrinsics.offline/
│   ├── sensor_extrinsics/
│   └── vehicle_dimensions/
├── labels/
│   ├── egomotion.offline/
│   ├── egomotion/
│   └── obstacle.offline/
└── metadata/
    ├── data_collection.parquet       # 含国家、月份、时段等过滤字段
    └── feature_presence.parquet       # 每个片段的传感器可用性(原 sensor_presence.parquet)

关键文件格式说明

  • 摄像头:MP4视频 + 帧时间戳Parquet
  • LiDAR :每个片段一个Parquet,包含多个旋转(spin),点云经Draco压缩 ,需用 DracoPy 解码
  • 雷达:每个片段一个Parquet,包含每次扫描的时间戳、方位角、俯仰角、距离、径向速度、RCS、SNR等
  • 标定:提供传感器在车辆坐标系下的位姿(四元数+位置),相机内参采用f-theta模型
  • 标签egomotion 提供车辆自身运动(局部坐标系,原点为0时刻位置,偏航为0,俯仰/滚转相对重力估计);obstacle.offline 为自动生成的障碍物标签

🛠️ 开发工具与生态

NVIDIA 提供了 Python 开发者工具包:

  • GitHub 仓库NVlabs/physical_ai_av
  • 安装pip install physical_ai_av(需 Python ≥ 3.11)
  • 功能:支持从 Hugging Face 直接下载、数据格式解析、工作流集成

此外,还提供 Cosmos Dataset Search (CDS) 预览体验(需注册),可用于多模态语义搜索。


🚀 应用场景

页面列举了数据集适用的研究领域:

  • 端到端驾驶模型训练
  • 场景挖掘与分析
  • 神经重建(Neural Reconstruction)
  • 合成数据生成
  • 监督微调(Supervised Fine Tuning)
  • 运行时评估
  • 强化学习

NVIDIA 还提供了基于此数据集的工作流示例(如 Alpamayo 开发工作流),支持 NuRec 重建、监督微调和强化学习。


⚖️ 许可与道德考量

  • 许可协议 :必须接受 NVIDIA Autonomous Vehicle Dataset License Agreement,仅允许用于自动驾驶相关开发,禁止逆向工程、重新分发、身份识别、生物特征处理等。
  • 道德声明:NVIDIA 强调可信AI,要求开发者确保其应用符合行业伦理和法律要求,禁止用于非法监控、未经同意的生物信息收集、骚扰等。
  • 隐私保护:数据集已经过匿名化处理,禁止尝试重新识别个体(如车牌、人脸)。若发现未充分匿名化,需立即通知 NVIDIA。

📦 版本历史

  • v26.03(当前):添加了离线优化的特征(egomotion.offline, obstacle.offline, 标定.offline),更新了元数据结构,支持 NuRec、SFT、RL 工作流。
  • v25.10:初始发布。

以上信息均来自您提供的 Hugging Face 数据集页面。如果您需要更详细的字段说明(例如雷达数据的具体列名),可以访问 physical_ai_av 仓库的 Wiki

相关推荐
ZKNOW甄知科技4 分钟前
数智同行:甄知科技2026年Q1季度回顾
运维·服务器·人工智能·科技·程序人生·安全·自动化
呆呆敲代码的小Y5 分钟前
【Unity工具篇】| 游戏完整资源热更新流程,YooAsset官方示例项目
人工智能·游戏·unity·游戏引擎·热更新·yooasset·免费游戏
jikemaoshiyanshi5 分钟前
B2B企业GEO服务商哪家好?深度解析径硕科技(JINGdigital)及其JINGEO产品为何是首选
大数据·运维·人工智能·科技
Lab_AI6 分钟前
浩天药业携手创腾科技,开启研发数字化新篇章!电子实验记录本(ELN)落地浩天药业
人工智能
supericeice7 分钟前
大模型建筑隐患管理方案怎么做?创邻科技用知识图谱、图数据库和企业AI大脑打通隐患问答、整改与推荐
人工智能·科技·知识图谱
蕤葳-11 分钟前
非编程背景学习AI的方法
人工智能
北京耐用通信14 分钟前
不换设备、不重写程序:耐达讯自动化网关如何实现CC-Link IE转Modbus TCP的高效互通?
人工智能·科技·物联网·网络协议·自动化·信息与通信
计算机毕业设计指导15 分钟前
基于机器学习和深度学习的恶意WebURL检测系统实战详解
人工智能·深度学习·机器学习·网络安全
珂朵莉MM16 分钟前
第七届全球校园人工智能算法精英大赛-算法巅峰赛产业命题赛第3赛季优化题--多策略混合算法
人工智能·算法
GlobalInfo18 分钟前
2026-2032全球AI服务器连接器市场洞察:规模、竞争与趋势深度解析
人工智能