高德地球-ABot-Earth 0.5

Lun.A, 2026.06.10

"高德地球"是我自己这么叫，官方没这么叫，后文我均以"高德地球"为名替代官方名称，官方地址

ABot Earth Studio · 即刻生成你的星球

技术要点

生成式 AI 模型，大概率也是 Scaling Law 的，随着数据集和算力的提升，生成模型的质量和速度依旧有很大的提升空间；
1. 训练集：
  1. 卫星影像；
    1. 使用的是多视角卫星影像，即使用遥感对地面大多数地区都有一定倾斜角度的特点，基于 Orbit2Ground（高德和北大一起搞的一个，有公开推文）来还原建筑高度和模糊的侧面贴图，后续接入自己训练的 FLUX 模型来对贴图进行修复。
  2. （核心训练数据）低空航片，以高质量低空、多视角航片（可能来自谷歌地球倾斜重渲染，或者其他途径的采集数据）作为核心训练集，并可辅以点云或倾斜Mesh做先验数据，来提升重建精度；
  3. 城市图片，是以街景、无人机图片、城市低点位渲染图；
  4. 注：原文特地说了所有多视角数据用的都是开源数据和采购的专有数据，没用合成资产，估计是为了避免版权问题。但是我还是保留使用了谷歌倾斜的看法，因为全球各地收集那么多高质量低空航片的难度太大。但是无所谓，GPT训练时候爬了多少数据，也没提版权、付费的事，为了人类进步嘛，不丢人。
2. 推理时：仅依赖遥感影像，10分钟/平方公里；
"创作空间"，支持通过文本来生成虚实结合的三维城市，看描述应该是支持对场景风格、模型贴图材质等要素进行自定义生成，没有内测权限不确定使用效果如何；
推理速度快，原文表达为 10分钟/平方公里（重新算了一下，大概是 3卡 A100 并行跑的速度）；
输入数据要求低，推理仅要求输入遥感影像；
渲染与数据标准已打通，且整体分块和 LOD 切换较丝滑，无特别明显顿挫感。这条相对容易，无论李飞飞团队、Spark 2.0、Bentley、ESRI 都已有完整解决方案，且有开源方案可参考；
1. 目前释出的版本是以 Ceisum.js 为主 + 高德云境插件 + 自定义存储格式方式提供的 B 端 3DGS 渲染。
2. 高德云境也有 UE 插件，但处于非常早期阶段，不具有实用性。
3. 考虑 3DGS 生态的迅速成熟（Bentley、ESRI、Spark 2.0、Khronos 等），以及 3DGS 向传统 Mesh 转换、或基于 3DGS 渲染图走 3D AI 生成 Mesh 等方向的不断完善，打通传统建模、渲染的路径也不具有明显短板。
ABot-Earth 0.5 版本已生成超过 300 个城市和 190 个国家，目前看主要集中在全球的各个大城市上，可能和训练集数据有关，大城市数据更好获取，如谷歌全球倾斜也集中在大城市上，是个很好的数据源，在小城市或乡村上的泛化性如何仍需测试（但小城市无论是资金还是注意力对其的专注度都不高，即使效果很差也没有太大影响，并且可以通过补充数据集来迅速补齐短板）。

核心流程如下，高德地球核心的几步在模型生成、3DGS的LOD及分块和最终的渲染方面，真正核心的还是训练的这个大模型，其他的都是一些工程上的壁垒。

原文简读

应用方向

原文指出，目前版本的主要应用方向是，以超低成本来缩小模拟仿真和真实世界的差距，闭环诸如"无人机导航"、智驾仿真（我自己补充的）、具身智能（Maybe）等应用场景。

从目前释出的版本来看，核心技术在高推理速度和低输入要求带来的低成本、快速的仿真场景搭建。

相比传统倾斜重建具有速度快的优势，但精细度在目前模型参数量（具体多少我不知道）情况下差距仍明显，但可能已经可以一些低精度场景的需求，或者诸如自动驾驶、无人机路径自规划等方向的泛化性的验证？
相比规则建模，明显具有更高的真实性。并且对输入数据要求更低，规则建模一般需要有真实模型做参考，并将模型主体拆分为不同部分并进行规则化，成本、时效性均

原文贴出的支持城市

为什么生成？

原文指出：

高精度的三维地理空间重建技术确有价值，已成为数字孪生、智能城市物流及虚拟仿真的基础支撑要素，但有如下限制因素：
1. 传统的三维重建（MVS）需要有高质量的多视角航片，且处理时间长、计算资源消耗大（不确定他们说的 10 分钟/平方公里是用什么硬件跑的，但是这么说的话，可能推理的计算成本会比传统倾斜重建要低很多），最终模型效果也在一定程度上依赖人工的修复（这句我自己加的）；
2. 激光雷达也类似，采集、处理的算力和时间成本都很高。
推理集为什么是遥感？我猜是因为便宜、时效性高，其他重建方案：
1. 倾斜：包括基于照片训练的 3DGS 都需要高清、密集、高覆盖度的航拍照片才能保证重建效果，确实成本很高，但是如果有这些数据了，无论是倾斜重建还是 3DGS 出来的效果都一定比 ABot Earth 这种方式效果好，但是高德地球这个版本是为了解决低成本快速重建，所以两者本质不是一个东西。
2. 3D模型生成：Sam 3D、Tripo 3D、混元、TRELLIS、CAT3D 等对单个模型的生成已经很不错了，但是对大范围、连续、全要素且真实的生成确实还没办法。

主要路径

基于各种数据，进行各种预处理（数据空间匹配、多要素的语义区分、时间天气等成像干扰因素去除等）之后先训练一套 3DGS 作为基础数据。
基于上一步的 3DGS 场景，构建虚拟相机进行多视角渲染，覆盖从场景底部到顶部全范围及各个视角，并且对摄像机的位置、高度、俯仰角和偏航角进行随机扰动，以进一步增加视角多样性。
对图块重建、视角渲染和数据集三个级别都构建了质量评估框架，确保只有可靠、高质量的样本能进入最终训练的数据集。
1. 3DGS 的评价基于 PSNR/SSIM/LPIPS、几何精度、VLM感知质量评分以及空间完整性，对不符合要求的打回重建或彻底排除。
2. 视图渲染评价消除空洞、边界以及累积不透明度较低的视图，然后让 VLM 进行评价过滤。
3. 图块集合级别进行评价。
  1. 空间多样性平衡，追踪场景类别并采用分层抽样方法，以确保没有单一的城市形态占据主导地位。
  2. 语义去重，对图块进行聚类，并对近似重复的图块进行降采样，避免模式崩溃。

生成模型对比了 TRELLIS、混元等模型，强调高德地球的生成大模型创建了一个新的直接学习并输出 3DGS 而不是 Mesh 的新模式。
高德地球把 3DGS 的 LOD 做进了生成模型里面，以解码器的方式让 LLM 直接输出具备合适 LOD 的 3DGS 而不是作为后续的后处理步骤。（这个很吊）
在城市级这种超大范围的生成任务上，一次性输出是不可行的，他们设计了一种高效的无缝滑动窗口推理策略，在生成阶段智能融合重叠区域，并大幅度减少拼接痕迹。
如何处理不同的遥感影像？遥感受限于传感器、天气大气、时间等因素，即使相同的卫星其遥感质量也难以一致，更不说要接受那么多不同类型卫星的遥感产品，这里高德他们在推理阶段引入了 VLM 来处理各种不同特征的遥感影像，让他们在最终喂给 LLM 之前能尽量贴合到训练集生成的模拟卫星影像的图像特征。（具体效果不知道如何，但是路径看着非常正确，图像特征一致性的处理可以通过换用不同的 VLM 或者 VLM 技术迭代得到不断加强）。

高德地球如何展示？

这块对应高德地球 tech-report 的第四节，工程化部署和交互展示方面。

为了解决生成范围太大的问题，他们把全球划分成了规则空间图块，每个图块跑单独的任务。在 A100 上单次推理能处理一幅 4K 分辨率的卫星图像，对应地面覆盖面积约为 1.6*1.6 km（2.56 平方公里）。
1. 这里秀了一下他们模型的长距离空间一致性（因为训练数据是 200*200 米的区域，推理范围大了 64 倍），目标是在 2.56 平方公里范围内实现近乎完美的无缝性。图块范围如下图，分块大小不一样是他们为了解决 web mercator 在不同维度下大小变形做的
他们在千卡集群（大概是 A100 吧）下单个图块推理过程需要 25 分钟，原文这里写的不清楚，大概重算了一下，可能是 3卡A100并行要跑25分钟/平方公里。
1. 这里按 20260610 的时间算一下推理成本，按1.98刀来算就是 2.475刀/平方公里（不到18元），确实是便宜的。
因为他们做的是全球的，数据量很大，有 3.2 万个图块，32 万亿个高斯球，大致做了如下操作
1. 因为高斯训练都是局部坐标系，所以做了个地理位置的还原；
2. 他们设计的 LOD 范围是 14~19 级，17~19 级是 LLM 生成的，14~16 是在 17 基础上用 Bhattacharyya distance 来统计做逐层降采样得到的；
3. 然后提供了一个 tileset.json 的入口，隐式遵守 z/x/y 的标准；
4. 后续一些渲染相关的就是 CesiumJS + 高德云境插件的相关描述了；
再后面第五章是模型质量优点之类的吹水部分了，后续我会对照谷歌地球进行苛刻的用户评价，当然这两个东西其实不应该放到一起去比较，因为成本、出现的时间什么的都有显著差距，但是你高德地球自己对比的谷歌地球，我用相同标的应是合理的（后续对比不考虑成本、技术差异和现有生态的契合度，只对比视觉效果和真实度）。

吹水部分丢个雷达图在这

苛刻的用户？的对比（鸡蛋里挑骨头了）

tech-report 有提到他们评价结果是 ABot-Earth 0.5 比谷歌地球有更好的美学评分，这个确实见仁见智吧，至少目前阶段我还是觉得离谷歌地球还是有一定差距（这里的差距仅指视觉效果上）。

地标性建筑

以中国台北101大厦为例，谷歌的倾斜 Mesh 从几何、纹理、颜色、场景视觉效果等方面都更优。确实这么对比不合适，ABot-Earth 目前是"快速"、低成本，且只需要输出遥感影像就能生成的场景，所以此处的所有对比不是刻意抹黑高德，只是从用户角度给个真实评价，仅对标 tech-report 中视觉效果部分，后续也会有 ABot-Earth 优势点的对比。

对基于遥感影像的生成模型进行地表建筑的对比确实过于苛刻，所以地标建筑仅对比这一例。

现代化高楼

从可视化角度来看，ABot-Earth 生成的城市模型确实几何合理、贴图颜色一致性强，但是可视化效果比谷歌地球仍略有不足（树木除外，树木的看着高德地球的更好）。但是对比下来会有真实性的存疑，从两者的对比来看，ABot-Earth 生成的城市在建筑高度和特征在现代化高楼（通常是异形建筑）上还略有不足。

低矮房屋

在非特异性建筑上ABot-Earth的还原程度显著更好（相比高德地球的高楼区域），但是依旧存在较多的建筑高度估计错误，和谷歌地球比无论视觉效果、真实性均仍有较大差距

数据稀疏区

如下图，在德黑兰这种对美不友好、或欠发达、或地理信息管制严格地区谷歌地球几无数据（至少明面上没有），ABot-Earth 在这些地方可以基于遥感快速生成城市场景，确实是 0 和 1 的区别