使用自监督学习重建动态驾驶场景

这篇文章最初发表在 NVIDIA 技术博客上。

从单调乏味的高速公路到日常的社区出行，驾驶通常都很平静。因此，在现实世界中收集的大部分自动驾驶汽车 (AV) 开发训练数据严重倾斜于简单的场景。

这给部署稳健的感知模型带来了挑战。AV 必须经过全面的训练、测试和验证，才能处理复杂的情况，而这需要涵盖此类情况的大量数据。

模拟为在现实世界中查找和收集此类数据提供了一种替代方案，而这需要非常耗时和成本。然而，大规模生成复杂的动态场景仍然是一个重大障碍。

在最近发表的一篇论文中，NVIDIA Research 展示了一种新的基于神经辐射场（NeRF）的方法（称为 EmerNeRF），它如何使用自监督学习准确生成动态场景。通过自监督进行训练，EmerNeRF 不仅在处理动态对象时优于其他基于 NeRF 的方法，而且在处理静态场景时也表现出色。有关更多详情，请参阅 EmerNeRF：通过自监督对紧急时空场景进行分解。

图 1.EmerNeRF 重建动态驾驶场景的示例

在与类似的 NeRF 一起运行 EmerNeRF 时，它将动态场景重建准确率提高 15%，静态场景提高 11%，此外，新颖的视图合成也提高了 12%.

解决基于 NeRF 的方法中的限制

NeRF 可接收一组静态图像，并将其重建为逼真的 3D 场景。它们可以通过驱动日志创建高保真模拟，以进行闭环深度神经网络 (DNN) 训练、测试和验证。

然而，当前基于 NeRF 的重建方法难以处理动态对象，并且已证明难以扩展。例如，虽然一些方法可以生成静态和动态场景，但它们需要真值 (GT) 标签才能生成。这意味着，必须使用自动标记技术或人工标注器准确概述和定义驾驶日志中的每个对象。

其他 NeRF 方法依赖于其他模型来获得有关场景的完整信息，例如光流。

为了解决这些限制，EmerNeRF 使用自监督学习将场景分解为静态、动态和流场。模型从原始数据中学习关联和结构，而不是依赖人类标记的 GT 注释。然后，它同时渲染场景的时间和空间方面，无需外部模型填补空白，同时提高准确性。

图 2.EmerNeRF 将图 1 中第一个视频中显示的场景分解为动态字段、静态字段和流字段

因此，虽然其他模型往往会生成过于平滑的渲染和精度较低的动态对象，但 EmerNeRF 可以重建高保真背景场景和动态对象，同时保留场景的精细细节。

| |
|---------------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|----------|
| Dynamic-32 分割 |
| | 场景重建 | 新型视图合成 |
| 方法 | 完整图像 | 仅动态 | 完整图像 | 仅动态 |
| | PSNR* | SSIM* | PSNR* | SSIM* | PSNR* | SSIM* | DPSNR* | SSIM* |
| D2NeRF | 24.35 | 0.645 | 21.78 | 0.504 | 2417 | 0.642 | 21.44 | 0.494 |
| HyperNeRF | 2517 | 0.688 | 22.93 | 0.569 | 24.71 | 0.682 | 22.43 | 0.554 |
| EmerNeRF | 28.87 | 0.814 | 26.19 | 0.736 | 27.62 | 0.792 | 24.18 | 0.67 |

表 1.将 EmerNeRF 与其他基于 NeRF 的动态场景重建方法进行比较的评估结果，这些方法分为场景重建和新视图合成的性能类别

| |
|--------------|-----------|-----------|
| Static-32 拆分 |
| 方法 | 静态场景重建 |
| | PSNR* | SSIM* |
| iNGP | 24.46 | 0.694 |
| 街头冲浪 | 26.15 | 0.753 |
| EmerNeRF | 29.08 | 0.803 |

表 2.比较 EmerNeRF 与其他基于 NeRF 的静态场景重建的评估结果