小米汽车首曝自动驾驶研究:相机和LiDAR联合重建框架Uni-Gaussians

在自动驾驶技术商业化落地的关键阶段,高质量仿真系统成为行车安全验证的核心基础设施。针对动态驾驶场景中相机与 LiDAR 联合仿真难题,Uni-Gaussians 提出一种基于统一高斯表征的分治渲染框架,实现精确性与计算效率的协同优化。

当前主流神经渲染方案存在显著局限性:

  1. 基于 NeRF 的方法虽能通过连续场景表征统一渲染相机图像与 LiDAR 点云,但其依赖密集采样的体渲染机制导致计算效率低下;

  2. 基于高斯溅射(Gaussian Splatting)的方法利用高斯基元实现场景表征,并通过光栅化(Rasterization)达成实时渲染,但其基于线性光学假设的渲染管线难以精确建模非线性光学传感器特性,导致该方法在针孔相机之外的传感器类型中应用受限。

为攻克上述挑战,来自香港科技大学、小米汽车和华中科技大学的研究团队提出了 Uni-Gaussians,实现了动态驾驶场景的高斯基元统一表征与分治渲染的架构。使用动态高斯场景图(Gaussian scene graph),建模静态背景与动态实体(如刚性车辆、非刚性行人)。图像数据采用光栅化(Rasterization)进行渲染,确保高帧率输出。LiDAR 数据则引入高斯光线追踪(Gaussian Ray-Tracing),精确模拟激光脉冲传播特性。该工作为自动驾驶场景下的相机与 LiDAR 数据提供的仿真方式,在质量与计算效率方面都取得了重大进展。

论文贡献

Uni-Gaussians 主要有以下贡献:

  1. 提出了一种统一、高效的仿真系统,能够利用高斯基元实现相机和激光雷达数据的联合重建。

  2. 实现了包含车辆、行人和骑车人在内的所有交通参与者的高质量 LiDAR 仿真。

  3. 通过大量的实验证明了统一的高斯表征和混合渲染方法的优势。

图一展示了最新 SOTA 方法 LiDAR4D 和该方法仿真结果的对比。相比之前方法,该方法可以准确地重建出各种可移动物体,包括行人和车辆。同时该方法对图像也可以进行高质量的重建。

方法概述

如图二所示,对于一个动态驾驶场景,该方法建立一个高斯场景图来进行解耦建模,其中包含静态背景和各种运动物体,例如刚性的车辆和非刚性的行人、骑车人。方法对整个场景进行相机和激光雷达同时的模拟。对于相机图像数据,方法采用 2D 高斯基元(2D Gaussian primitives)的栅格化渲染。对于激光雷达数据,计算高斯球和射线的交点并构建光线追踪来进行模拟,结合反射强度(SH intensity)与射线丢弃概率(SH ray-drop probability)建模 LiDAR 的主动感知机制。

实验结果

Uni-Gaussians 在 Waymo 公开数据集上进行了评估。针对激光雷达数据,该工作采用 Chamfer Distance 和 F-score 来进行点云几何精度评估。并使用 RMSE、MedAE、LPIPS、SSIM 和 PSNR 来评估雷达测距性能和反射强度质量。同时实验报告了渲染的耗时和存储占用量。对于相机图像渲染质量,则采用了 SSIM 和 PSNR 进行评估。

点云对比

表一,展示该方法和 lidar 仿真 SOTA 方法的定量比较。加粗为最优结果,加下划线为次优结果。和之前的 SOTA 方法相比,该方法在所有指标上均表现出卓越的性能。证明了这种联合仿真的优势。与 DyNFL 和 LiDAR4D 相比,该方法的 CD 指标分别降低了 40.9% 和 46.7%,同时渲染耗时和计算内存消耗也大幅降低。下面图 3 和图 4 展示可视化效果,该方法能够准确而精细地模拟动态驾驶场景中的各种类型的可移动实体,展现出明显优势。

图像对比

如表二所示,对于图像,该方法能保持高质量的渲染质量。此外该方法在新视角下也能表现出优越的泛化性能。

综上所述,Uni-Gaussians 通过统一的高斯表征和分治渲染的方法,实现了一套视觉和雷达点云的联合仿真框架。该工作在点云和图像上均展现出强大的仿真性能,兼顾高效率和高质量,为行业提供了一套优秀的解决方案。

相关推荐
mailangduoduo1 分钟前
基于深度学习的图片识别系统(下)
人工智能·深度学习·计算机视觉·ocr·卷积神经网络
kailp3 分钟前
无脑上手风月YOLO11镜像——新一代计算机视觉模型
人工智能·计算机视觉·云计算·ssh·gpu算力
AI帮小忙10 分钟前
AI+金融 应用 使用DeepSeek、Qwen等大模型输入自然语言,得到通达信等行情软件公式代码,导入后使用
人工智能·ai
Python数据分析与机器学习10 分钟前
《基于Python的财务数据可视化与决策支持系统开发》开题报告
大数据·开发语言·人工智能·python·深度学习·信息可视化
新智元10 分钟前
谷歌地表最强模型深夜来袭!Gemini 2.5 Pro 发布即屠榜,代码推理杀疯了
人工智能·openai
说私域12 分钟前
“需求引致供给“在互联网时代的范式重构:基于开源AI智能名片链动2+1模式S2B2C商城小程序源码的技术经济学分析
人工智能·小程序·重构·开源
HyperAI超神经14 分钟前
【TVM教程】使用自定义调度规则(Sketch Rule)在 CPU 上自动调度稀疏矩阵乘法
人工智能·深度学习·矩阵·编程·cpu·计算机语言·tvm
轻松Ai享生活19 分钟前
使用 Python 将工作流程自动化
人工智能·python
神马行空38 分钟前
一文解读DeepSeek的安全风险、挑战与应对策略
网络·人工智能·安全·大模型·deepseek
KangkangLoveNLP44 分钟前
从概率到梯度:理解分类问题中交叉熵的优越性
人工智能·深度学习·算法·机器学习·分类·lstm·transformer