
- 作者:Fuqiang Zhao1,4^{1,4}1,4, Yijing Guo1^{1}1, Siyuan Yang2^{2}2, Xi Chen3^{3}3, Luo Wang1^{1}1, Lan Xu1^{1}1, Yingliang Zhang3^{3}3, Yujiao Shi1^{1}1, Jingyi Yu1^{1}1
- 单位:1^{1}1上海科技大学,2^{2}2华中科技大学,3^{3}3DGene,4^{4}4NeuDim
- 论文标题:AerialGo: Walking-through City View Generation from Aerial Perspectives
- 论文链接:https://arxiv.org/pdf/2412.00157
主要贡献
- 提出多视图扩散框架AerialGo,能够从航拍图像生成逼真的步行穿过城市视图,从而实现可扩展且注重隐私的城市级3D重建。
- 构建AerialGo数据集,包含来自不同城市环境的345万张航拍和地面视角图像,覆盖134平方公里的区域,并提供精确的相机参数和深度信息,旨在支持从航拍到地面的重建任务和多视图生成建模。
- 通过在不同城市数据集上的广泛实验,与现有的仅航拍和混合方法相比,AerialGo在地面视角保真度和逼真度方面表现出色,尤其是在遮挡和复杂城市区域,有效地弥合了航拍到地面数据的差距,为可扩展、符合隐私要求的3D城市重建提供了新的解决方案。
研究背景
- 城市3D重建的重要性:随着城市化进程的加快,城市不仅是功能空间,还体现了独特的文化和建筑特色。高质量的城市建模和渲染对于城市规划、导航和AR/VR等众多应用至关重要。
- 现有方法的局限性:传统的3D重建方法依赖于地面视角的高质量图像,但收集这些图像既耗时又昂贵,并且受到可访问性和监管限制。此外,地面图像还存在隐私问题,如可能捕捉到车辆牌照和人脸等敏感信息。
- 航拍图像的优势:航拍图像由卫星、无人机和飞机捕获,更容易获取,能够快速高效地覆盖大面积区域,并且由于拍摄高度较高,难以识别地面的个人细节,从而提供更好的隐私保护。

AerialGo数据集
数据集的规模和多样性
- 覆盖范围 :AerialGo 数据集涵盖了 134平方公里 的不同城市区域,提供了丰富的训练数据,适用于大规模3D城市重建、渲染和场景生成。
- 多样性:数据集包含了多种地形、建筑高度和建筑风格,如高层建筑、住宅区、商业区以及复杂的广场、公园和交通枢纽。此外,许多建筑具有反光玻璃幕墙,这增加了数据集的真实感和多样性。
- 动态环境:为了模拟真实的城市动态,数据集在不同的天气条件(如晴天、雨天、雾天)和光照场景(如白天、黄昏、夜晚)下收集数据。通过控制一天中的时间、光线角度和强度,捕捉自然光照的变化。
数据收集

-
航拍视角数据收集:
- 使用斜摄影测量方法,通过自定义脚本自动生成每个街区的相机路径,确保全面覆盖建筑和街道细节。
- 使用五台同步相机(一台向下,四台斜向)进行拍摄,确保从不同角度捕捉细节。
- 模拟真实效果,如光线追踪、运动模糊和抗锯齿,以增强渲染图像的真实感。
-
地面视角数据收集:
- 手动标注道路的起点和终点,自动生成直线路径,并在转弯处添加关键点,确保安全和顺畅的轨迹。
- 根据不同的光照条件和视角,自动调整曝光设置,确保地面和航拍视角的图像具有真实感。
数据集的特点
- 多视图数据:数据集包含航拍和地面视角的图像,提供了丰富的多视图信息。
- 精确的相机参数和深度信息:每张图像都附带了精确的相机参数和深度信息,便于进行3D重建和渲染。
- 动态环境模拟:通过控制不同的天气和光照条件,数据集能够模拟真实世界中的动态场景。
AerialGo框架

扩散模型用于航拍到地面视角生成
AerialGo框架通过条件化地面视角合成来利用可获取的航拍数据,从而绕过地面图像固有的隐私风险。该框架将航拍图像编码并与目标地面视角的随机噪声相结合,然后通过3D注意力处理以生成逼真的图像。
- 参考航拍图像选择:根据目标地面相机的位置和方向,选择最相关的航拍图像作为参考。
- 扩散模型架构:基于多视图和视频扩散框架,每个去噪步骤专注于生成地面视角图像。使用3D自注意力机制,其中1D注意力捕获多图像间的信息,2D注意力捕获单图像内的特征。
- 条件嵌入:将点云渲染的CLIP嵌入和相机参数嵌入整合到扩散模型中,以增强生成图像的3D结构一致性。
3D重建与扩散先验
- 传统的3D重建方法(如NeRF和3DGS)依赖于大量的多视图观测,但在城市场景中获取大量的地面视角数据既耗时又困难。
- 通过生成地面视角图像,AerialGo减少了对手动地面视角数据收集的依赖。将生成的地面视角图像作为先验,整合到3DGS等方法中,显著提高了从地面视角的重建质量。
- 感知损失:在3D重建方法中引入感知损失(如LPIPS),以减少高频细节的不一致性。
- 天空盒建模:通过定义一个围绕场景的天空盒,增强地面视角渲染的稳定性和真实感。
实现细节
- 模型训练:基于ImageDream的预训练参数,输入图像分辨率调整为256×256×3,并通过预训练的自编码器降采样到32×32×4。训练时,每个批次包含四个帧:三个编码的航拍视图潜在表示和一个地面视图潜在表示。
- 训练配置:使用8个NVIDIA A100 GPU,批量大小为64。初始学习率为1×10^-5,每3000次迭代后降低学习率。
- 训练时间:训练过程大约需要两天时间完成。
实验
对比设置
- 数据集:在AerialGo和MatrixCity数据集上进行训练和评估。AerialGo数据集包含345万张图像,覆盖134平方公里的城市区域;MatrixCity数据集则提供了额外的测试场景。
- 方法:比较了三种代表性3D重建方法:3DGS、CityGaussian和GigaGS。这些方法分别在有无AerialGo生成的地面视角先验的情况下进行评估。
定量结果

- 结果显示,仅使用航拍图像时,所有方法在地面视角的重建质量上表现不佳。然而,当整合AerialGo生成的地面视角图像后,这些方法在PSNR、SSIM和LPIPS等指标上均显著提升。

- 例如,在AerialGo City A数据集上,3DGS方法在没有先验的情况下PSNR为19.69,SSIM为0.686,LPIPS为0.328;而加入AerialGo生成的先验后,PSNR提升至20.13,SSIM提升至0.626,LPIPS降低至0.397。
定性结果
- 从图中可以看出,仅使用航拍图像的方法在生成地面视角时存在明显的结构和细节问题,而AerialGo生成的图像与目标图像更为接近,尤其是在复杂的城市区域。

- 例如,与MotionCtrl、LucidDreamer和ViewCraft等其他基于扩散模型的多视图合成方法相比,AerialGo在处理大视点差异的城市环境中表现出色,能够生成更准确的地面视角图像。
消融研究

- 条件视图数量:研究了不同数量的条件航拍视图对模型性能的影响。结果表明,使用三个航拍视图作为条件时,模型能够产生最佳结果。使用更多的视图可能会引入不相关的细节,导致生成图像的质量下降。

- 点云渲染嵌入:研究了点云渲染的CLIP嵌入对生成图像质量的影响。结果表明,加入点云渲染嵌入显著提高了生成图像与真实图像的一致性。
结论与未来工作
- 结论 :
- AerialGo框架通过从航拍图像生成高质量的地面视角图像,有效解决了大规模城市建模中地面数据有限和隐私问题的挑战。
- 该框架结合了独特的3D注意力机制和基于点云的条件,以确保结构一致性,并生成逼真且连贯的地面视角图像。
- 此外,AerialGo数据集为训练生成模型和推进城市级3D重建提供了宝贵的资源。
- 广泛的实验表明,AerialGo在复杂城市环境中显著优于现有方法,实现了更高的保真度和逼真度。
- 未来工作 :
- 虽然AerialGo在地面视角生成方面取得了显著进展,但在高频率区域的复杂纹理渲染方面仍存在挑战。
- 未来的工作可以探索更先进的扩散模型架构或结合其他技术来进一步提高纹理细节的准确性。
- 此外,还可以考虑将AerialGo应用于更广泛的城市建模任务,如实时渲染和动态场景重建。
