高德地球-ABot-Earth 0.5

Lun.A, 2026.06.10

"高德地球"是我自己这么叫,官方没这么叫,后文我均以"高德地球"为名替代官方名称,官方地址

ABot Earth Studio · 即刻生成你的星球

技术要点

  1. 生成式 AI 模型,大概率也是 Scaling Law 的,随着数据集和算力的提升,生成模型的质量和速度依旧有很大的提升空间;

    1. 训练集:

      1. 卫星影像;

        1. 使用的是多视角卫星影像,即使用遥感对地面大多数地区都有一定倾斜角度的特点,基于 Orbit2Ground(高德和北大一起搞的一个,有公开推文)来还原建筑高度和模糊的侧面贴图,后续接入自己训练的 FLUX 模型来对贴图进行修复。
      2. (核心训练数据)低空航片,以高质量低空、多视角航片(可能来自谷歌地球倾斜重渲染,或者其他途径的采集数据)作为核心训练集,并可辅以点云或倾斜Mesh做先验数据,来提升重建精度;

      3. 城市图片,是以街景、无人机图片、城市低点位渲染图;

      4. 注:原文特地说了所有多视角数据用的都是开源数据和采购的专有数据,没用合成资产,估计是为了避免版权问题。但是我还是保留使用了谷歌倾斜的看法,因为全球各地收集那么多高质量低空航片的难度太大。但是无所谓,GPT训练时候爬了多少数据,也没提版权、付费的事,为了人类进步嘛,不丢人。

    2. 推理时:仅依赖遥感影像,10分钟/平方公里;

  2. "创作空间",支持通过文本来生成虚实结合的三维城市,看描述应该是支持对场景风格、模型贴图材质等要素进行自定义生成,没有内测权限不确定使用效果如何;

  3. 推理速度快,原文表达为 10分钟/平方公里(重新算了一下,大概是 3卡 A100 并行跑的速度);

  4. 输入数据要求低,推理仅要求输入遥感影像;

  5. 渲染与数据标准已打通,且整体分块和 LOD 切换较丝滑,无特别明显顿挫感。这条相对容易,无论李飞飞团队、Spark 2.0、Bentley、ESRI 都已有完整解决方案,且有开源方案可参考;

    1. 目前释出的版本是以 Ceisum.js 为主 + 高德云境插件 + 自定义存储格式 方式提供的 B 端 3DGS 渲染。

    2. 高德云境也有 UE 插件,但处于非常早期阶段,不具有实用性。

    3. 考虑 3DGS 生态的迅速成熟(Bentley、ESRI、Spark 2.0、Khronos 等),以及 3DGS 向传统 Mesh 转换、或基于 3DGS 渲染图走 3D AI 生成 Mesh 等方向的不断完善,打通传统建模、渲染的路径也不具有明显短板。

  6. ABot-Earth 0.5 版本已生成超过 300 个城市和 190 个国家,目前看主要集中在全球的各个大城市上,可能和训练集数据有关,大城市数据更好获取,如谷歌全球倾斜也集中在大城市上,是个很好的数据源,在小城市或乡村上的泛化性如何仍需测试(但小城市无论是资金还是注意力对其的专注度都不高,即使效果很差也没有太大影响,并且可以通过补充数据集来迅速补齐短板)。

核心流程如下,高德地球核心的几步在模型生成、3DGS的LOD及分块和最终的渲染方面,真正核心的还是训练的这个大模型,其他的都是一些工程上的壁垒。

原文简读

应用方向

原文指出,目前版本的主要应用方向是,以超低成本来缩小模拟仿真和真实世界的差距,闭环诸如"无人机导航"、智驾仿真(我自己补充的)、具身智能(Maybe)等应用场景。

从目前释出的版本来看,核心技术在高推理速度和低输入要求带来的低成本、快速的仿真场景搭建。

  1. 相比传统倾斜重建具有速度快的优势,但精细度在目前模型参数量(具体多少我不知道)情况下差距仍明显,但可能已经可以一些低精度场景的需求,或者诸如自动驾驶、无人机路径自规划等方向的泛化性的验证?

  2. 相比规则建模,明显具有更高的真实性。并且对输入数据要求更低,规则建模一般需要有真实模型做参考,并将模型主体拆分为不同部分并进行规则化,成本、时效性均

原文贴出的支持城市

为什么生成?

原文指出:

  1. 高精度的三维地理空间重建技术确有价值,已成为数字孪生、智能城市物流及虚拟仿真的基础支撑要素,但有如下限制因素:

    1. 传统的三维重建(MVS)需要有高质量的多视角航片,且处理时间长、计算资源消耗大(不确定他们说的 10 分钟/平方公里是用什么硬件跑的,但是这么说的话,可能推理的计算成本会比传统倾斜重建要低很多),最终模型效果也在一定程度上依赖人工的修复(这句我自己加的);

    2. 激光雷达也类似,采集、处理的算力和时间成本都很高。

  2. 推理集为什么是遥感?我猜是因为便宜、时效性高,其他重建方案:

    1. 倾斜:包括基于照片训练的 3DGS 都需要高清、密集、高覆盖度的航拍照片才能保证重建效果,确实成本很高,但是如果有这些数据了,无论是倾斜重建还是 3DGS 出来的效果都一定比 ABot Earth 这种方式效果好,但是高德地球这个版本是为了解决低成本快速重建,所以两者本质不是一个东西。

    2. 3D模型生成:Sam 3D、Tripo 3D、混元、TRELLIS、CAT3D 等对单个模型的生成已经很不错了,但是对大范围、连续、全要素且真实的生成确实还没办法。

主要路径

  1. 基于各种数据,进行各种预处理(数据空间匹配、多要素的语义区分、时间天气等成像干扰因素去除等)之后先训练一套 3DGS 作为基础数据。

  2. 基于上一步的 3DGS 场景,构建虚拟相机进行多视角渲染,覆盖从场景底部到顶部全范围及各个视角,并且对摄像机的位置、高度、俯仰角和偏航角进行随机扰动,以进一步增加视角多样性。

  3. 对图块重建、视角渲染和数据集三个级别都构建了质量评估框架,确保只有可靠、高质量的样本能进入最终训练的数据集。

    1. 3DGS 的评价基于 PSNR/SSIM/LPIPS、几何精度、VLM感知质量评分以及空间完整性,对不符合要求的打回重建或彻底排除。

    2. 视图渲染评价消除空洞、边界以及累积不透明度较低的视图,然后让 VLM 进行评价过滤。

    3. 图块集合级别进行评价。

      1. 空间多样性平衡,追踪场景类别并采用分层抽样方法,以确保没有单一的城市形态占据主导地位。

      2. 语义去重,对图块进行聚类,并对近似重复的图块进行降采样,避免模式崩溃。

  1. 生成模型对比了 TRELLIS、混元等模型,强调高德地球的生成大模型创建了一个新的直接学习并输出 3DGS 而不是 Mesh 的新模式。

  2. 高德地球把 3DGS 的 LOD 做进了生成模型里面,以解码器的方式让 LLM 直接输出具备合适 LOD 的 3DGS 而不是作为后续的后处理步骤。(这个很吊)

  3. 在城市级这种超大范围的生成任务上,一次性输出是不可行的,他们设计了一种高效的无缝滑动窗口推理策略,在生成阶段智能融合重叠区域,并大幅度减少拼接痕迹。

  4. 如何处理不同的遥感影像?遥感受限于传感器、天气大气、时间等因素,即使相同的卫星其遥感质量也难以一致,更不说要接受那么多不同类型卫星的遥感产品,这里高德他们在推理阶段引入了 VLM 来处理各种不同特征的遥感影像, 让他们在最终喂给 LLM 之前能尽量贴合到训练集生成的模拟卫星影像的图像特征。(具体效果不知道如何,但是路径看着非常正确,图像特征一致性的处理可以通过换用不同的 VLM 或者 VLM 技术迭代得到不断加强)。

高德地球如何展示?

这块对应高德地球 tech-report 的第四节,工程化部署和交互展示方面。

  1. 为了解决生成范围太大的问题,他们把全球划分成了规则空间图块,每个图块跑单独的任务。在 A100 上单次推理能处理一幅 4K 分辨率的卫星图像,对应地面覆盖面积约为 1.6*1.6 km(2.56 平方公里)。

    1. 这里秀了一下他们模型的长距离空间一致性(因为训练数据是 200*200 米的区域,推理范围大了 64 倍),目标是在 2.56 平方公里范围内实现近乎完美的无缝性。图块范围如下图,分块大小不一样是他们为了解决 web mercator 在不同维度下大小变形做的

  2. 他们在千卡集群(大概是 A100 吧)下单个图块推理过程需要 25 分钟,原文这里写的不清楚,大概重算了一下,可能是 3卡A100并行要跑25分钟/平方公里。

    1. 这里按 20260610 的时间算一下推理成本,按1.98刀来算就是 2.475刀/平方公里(不到18元),确实是便宜的。

  3. 因为他们做的是全球的,数据量很大,有 3.2 万个图块,32 万亿个高斯球,大致做了如下操作

    1. 因为高斯训练都是局部坐标系,所以做了个地理位置的还原;

    2. 他们设计的 LOD 范围是 14~19 级,17~19 级是 LLM 生成的,14~16 是在 17 基础上用 Bhattacharyya distance 来统计做逐层降采样得到的;

    3. 然后提供了一个 tileset.json 的入口,隐式遵守 z/x/y 的标准;

    4. 后续一些渲染相关的就是 CesiumJS + 高德云境插件的相关描述了;

  4. 再后面第五章是模型质量优点之类的吹水部分了,后续我会对照谷歌地球进行苛刻的用户评价,当然这两个东西其实不应该放到一起去比较,因为成本、出现的时间什么的都有显著差距,但是你高德地球自己对比的谷歌地球,我用相同标的应是合理的(后续对比不考虑成本、技术差异和现有生态的契合度,只对比视觉效果和真实度)。

吹水部分丢个雷达图在这

苛刻的用户?的对比(鸡蛋里挑骨头了)

tech-report 有提到他们评价结果是 ABot-Earth 0.5 比谷歌地球有更好的美学评分,这个确实见仁见智吧,至少目前阶段我还是觉得离谷歌地球还是有一定差距(这里的差距仅指视觉效果上)。

地标性建筑

以中国台北101大厦为例,谷歌的倾斜 Mesh 从几何、纹理、颜色、场景视觉效果等方面都更优。确实这么对比不合适,ABot-Earth 目前是"快速"、低成本,且只需要输出遥感影像就能生成的场景,所以此处的所有对比不是刻意抹黑高德,只是从用户角度给个真实评价,仅对标 tech-report 中视觉效果部分,后续也会有 ABot-Earth 优势点的对比。

对基于遥感影像的生成模型进行地表建筑的对比确实过于苛刻,所以地标建筑仅对比这一例。

现代化高楼

从可视化角度来看,ABot-Earth 生成的城市模型确实几何合理、贴图颜色一致性强,但是可视化效果比谷歌地球仍略有不足(树木除外,树木的看着高德地球的更好)。但是对比下来会有真实性的存疑,从两者的对比来看,ABot-Earth 生成的城市在建筑高度和特征在现代化高楼(通常是异形建筑)上还略有不足。

低矮房屋

在非特异性建筑上ABot-Earth的还原程度显著更好(相比高德地球的高楼区域),但是依旧存在较多的建筑高度估计错误,和谷歌地球比无论视觉效果、真实性均仍有较大差距

数据稀疏区

如下图,在德黑兰这种对美不友好、或欠发达、或地理信息管制严格地区谷歌地球几无数据(至少明面上没有),ABot-Earth 在这些地方可以基于遥感快速生成城市场景,确实是 0 和 1 的区别

相关推荐
vivo互联网技术6 小时前
MagicWorld 实现长时交互视频世界建模
ai·aigc技术探索·世界模型·影像
传说故事9 小时前
【论文阅读】WorldArena 2.0:扩展具身世界模型在模态性、功能性与平台上的基准测试
论文阅读·人工智能·具身智能·世界模型
程序员极光1 天前
第六篇,如何用高德地图获取定位!
3d·高德
七77.1 天前
【3D 场景生成】NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes
3d·世界模型
七77.1 天前
【3D 场景生成】WorldGen: From Text to Traversable and Interactive 3D Worlds
3d·世界模型
七77.2 天前
【视频世界模型】InSpatio-WorldFM: An Open-Source Real-Time Generative Frame Model
世界模型
audyxiao0013 天前
ICLR 2026论文分享 | WorldGym:用世界模型打造机器人策略评估新范式
大数据·人工智能·大模型·智能体·世界模型
七77.5 天前
【3D 场景生成】MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation
3d·世界模型
深蓝学院6 天前
清华WorldVLN:首个自回归世界动作模型!零样本迁移真实无人机,成功率+12%
无人机·世界模型