AlphaEarth Foundations(AEF)是一种面向全球尺度的嵌入场模型,旨在从稀疏且不均匀的标注数据中高效、准确地生成各类地理信息图件。随着遥感卫星、气象观测和环境监测平台的持续部署,地球观测(EO)数据的体量已达到每年数十万至数百万平方公里的像素级别。然而,高质量的地面标签仍然稀缺------获取实测数据往往需要昂贵的现场调查、实验室分析或人工解译。传统的专题制图工作往往围绕单一生态系统或单一产品展开,例如森林覆盖、湿地分布或作物类型;这种做法在提升标注效率的同时,也牺牲了对更细粒度或跨域任务的适用性。AEF 通过学习一种通用的、时空连续的特征空间,突破了上述瓶颈,使得同一套嵌入即可支撑从土地利用分类到生物物理变量估计、再到变化检测的多样化任务。
一、从稀疏标签到全局地图的挑战
在全球尺度的制图实践中,标注的空间覆盖与测量精度之间存在根本性的权衡。若仅依赖大规模的机器生成标签(如 NLCD、MODIS),则可以快速覆盖广阔区域,但标签的噪声、传感器依赖性以及对特定地区的适用性限制了其在高价值应用中的可靠性。相反,基于实地采样的高精度标签往往局限于局部范围,难以支撑跨洲甚至全球的制图需求。为此,研究者们尝试通过手工设计的特征(植被指数、时序谐波、核滤波等)来提升标签的外推能力,但这些特征往往对传感器、地区和任务高度敏感,难以形成统一的、可迁移的特征库。
机器学习的兴起为多源遥感数据的融合提供了新思路。近年来,SatMAE、SatCLIP 等地理基础模型在特定任务上取得了显著进展,但它们普遍缺乏以下关键属性:① 多模态、多源的统一建模;② 对时间维度的显式建模;③ 能够在 10 m 级别提供空间精度的输出。更重要的是,在标注极度稀缺的情境下,这些学习特征并不一定优于传统手工特征。
二、AlphaEarth Foundations 的核心创新
AEF 是首个在稀疏标签情境下能够系统性超越所有已知特征方法的任务无关嵌入模型。其主要创新包括:
-
时空连续的嵌入场
输入为若干来源的时间标记帧(光学、雷达、LiDAR、气候、地形等),模型在"支持期"内对所有帧进行编码,并在任意"有效期" ([t_s, t_e)) 上生成 64 字节的嵌入向量。该向量在单位球面 (S^{63}) 上均匀分布,能够在没有任何微调的情况下直接用于下游任务。
-
自适应解码器
解码器接受嵌入、时间码(正弦编码)以及传感器几何元信息,恢复对应源的原始观测。通过对每个源分别设计的损失(分类交叉熵、L1 回归等),模型在训练期间学习到跨源、跨时的共同表征。
-
空间‑时间‑精度(STP)编码块
STP 由三类并行算子组成:空间自注意力(ViT‑style)、时间轴自注意力以及 3×3 卷积的精度算子。三者交叉作用并通过空间金字塔"交换"实现多尺度信息的高效融合。该结构在保持 10 m² 细粒度的同时,仅需 1/2 L 的空间分辨率即可完成特征提取。
-
教师‑学生一致性学习
为提升对缺失输入的鲁棒性,模型同步训练一个完整输入的教师网络和一个随机丢弃部分源或时间帧的学生网络。两者的嵌入在相同有效期下通过点积相似度进行对齐,从而迫使学生在信息缺失时仍能生成与教师相近的向量。
-
批次均匀性约束
为防止嵌入坍塌,AEF 在每个批次内部引入批次均匀性损失,最小化嵌入向量之间的点积绝对值,鼓励它们在球面上保持近似正交,从而实现均匀分布。
-
文本‑视觉对齐
通过与冻结的语言模型(Gemini)进行 CLIP‑style 对比学习,模型将地理文本(Wikipedia、GBIF)与对应的视觉嵌入对齐,使得语义相近的地点在嵌入空间中自然聚集。
三、训练数据与标注策略
AEF 的训练集覆盖 2017‑2024 年间的 3 × 10⁹ 帧,来源包括:
- 光学:Sentinel‑2(B2、B3、B4、B8、B11)与 Landsat 8/9(多光谱+热红外)
- 雷达:Sentinel‑1(VV、VH、HH、HV)与 PALSAR‑2(HH、HV、局部入射角)
- LiDAR:GEDI(100 个相对高度指标)
- 气候:ERA5‑Land(降水、气温、露点、表面压强)
- 重力:GRACE(陆地水储量)
- 地形:GLO‑30 DEM、坡度、坡向
- 注释:NLCD(美国土地覆盖)、Wikipedia 地理条目、GBIF 物种观测
训练地点通过四层抽样策略获得:① 基于地理文本点的网格抽样;② 按 RESOLVE 生态区划的分层抽样;③ 珊瑚礁与潮间带的近海抽样;④ 通过去除极地、海面和重复点后得到的 5 145 244 个唯一坐标。每个坐标再随机选取两个不重叠的时间段(约一年),形成 ((x, y, t_{\text{start}}, t_{\text{end}})) 四元组,最终得到 8 412 511 条视频序列,累计帧数超过 3 × 10⁹。
在训练过程中,模型对每条序列随机抽取若干帧作为输入,剩余帧用于解码目标。若某源在有效期内缺失,解码器仍需在空间上进行插值,保证模型对稀疏观测的鲁棒性。整体损失由四部分加权组合:
\\mathcal{L}=a\\underbrace{\\sum_i f_i(y_i, y_i')}*{\\text{重建}}+b\\underbrace{\\sum* {j}\|u_j\\cdot u_j'\|}*{\\text{均匀性}}+c\\underbrace{\\frac{1-\\langle\\mu,\\mu_s\\rangle}{2}}* {\\text{教师‑学生一致性}}+d\\underbrace{\\mathcal{L}*{\\text{CLIP}}(u, u_t)}* {\\text{文本对齐}}.
其中 (a=1.0)、(b=0.05)、(c=0.02)、(d=0.001)。模型在 512 TPU‑v4 上训练 56 小时,完成 10⁵ 步迭代。
四、评估套件与实验设计
为客观衡量 AEF 在稀疏标签情境下的迁移能力,作者构建了 15 项评估任务,覆盖 11 种分类、3 种回归以及 1 种变化检测,来源于公开的高质量数据集(LCMAP、LUCAS、GLanCE、Africa Crop Mask、Canada Crops、Ethiopia Crops、US Trees、Descals Oil Palm、OpenET、ASTER‑GED 等)。每项任务均遵循以下统一流程:
- 空间距离过滤:确保样本点之间至少相隔 1.28 km,降低空间自相关。
- 平衡抽样:对每个类别或回归区间进行等量抽样,最大每类 300(分类)或 300(回归)个训练样本,其余作为测试集。
- 时间窗口:为每个样本设定有效期(单日、年度或月度),确保嵌入能够在对应时间段上进行汇总。
- 低样本实验:分别在 1、10、最大(约 300)样本/类的设置下,使用 k‑最近邻(k=1、k=3)和线性探针(Ridge)两种极简模型进行迁移学习。
评估指标采用平衡准确率(BA)或 Balanced Error Rate(BER)用于分类,(R^2) 与 MAE 用于回归,变化检测则报告 BA。所有指标均通过 bootstrap 或 k‑fold 交叉验证给出 1σ 置信区间。
五、实验结果与分析
1. 整体表现
在最大样本实验中,AEF 相比第二名的平均误差降低约 23.9 %(约 1.4 倍误差缩减),在 10‑shot 与 1‑shot 场景下分别实现约 10.4 % 与 4.18 % 的误差下降。所有 15 项任务中,AEF 均取得最高或并列最高的指标,展示了前所未有的通用性。
2. 主题分类(Thematic Mapping)
包括 LCMAP(美国土地覆盖/利用)、LUCAS(欧洲土地调查)、GLanCE(全球 30 m 土地覆盖)以及 Africa Crop Mask 在内的 11 项分类任务,AEF 在年度有效期下的 BA 提升幅度普遍超过 1.0×,尤其在 LCMAP、Descals Oil Palm、Ethiopia Crops 等高细粒度任务中表现尤为突出。对比基准中,传统的 CCDC 谐波在作物类任务上仍具竞争力,说明时序光谱信息对作物表型仍是关键;而 MOSAIKS 与 Clay 在全球尺度的土地覆盖任务中紧随其后,表明空间局部纹理也能提供有价值的信号。
3. 生物物理变量估计
在表面发射率(ASTER‑GED)和蒸散发(OpenET)两项回归任务中,AEF 的 (R^2) 分别达到 0.72 与 0.58,显著超越所有对手。值得注意的是,除 MOSAIKS 与 Composites 外,其他学习或手工特征在发射率任务上均出现负 (R^2),说明它们未能捕捉到微弱的光谱‑热耦合信息。OpenET 的高难度在于其本身是多模型集成的产物,AEF 能在不使用任何水文模型的前提下逼近原始集成结果,凸显了其在稀疏观测下的强大推断能力。
4. 变化检测
变化检测分为有监督的二元分类(直接对比前后嵌入)和无监督的异常阈值方法。AEF 在有监督设置下的 BA 达到 78.4 %(土地覆盖)与 79.3 %(土地利用),显著领先 MOSAIKS 与 Composites(约 71‑72 %)。在无监督阈值检测中,AEF 对土地覆盖变化的检测同样优于所有基准,说明其嵌入在时间维度上保持了足够的区分度。
5. 数据规模与源多样性的影响
实验显示,随着训练观测数量从 1 × 10⁸ 增至 1 × 10⁹,AEF 的性能呈单调提升趋势;在部分任务(如 US Trees)中仍未出现饱和,暗示进一步扩充多源数据仍有提升空间。源组实验表明,加入光学、雷达、LiDAR、气候与注释等全部五类源时整体表现最佳,但对特定任务的增益并非线性:例如油棕种植区最受光学+雷达+LiDAR 组合驱动,而土地覆盖任务则从注释(NLCD、Wikipedia)中获益显著。
6. 嵌入维度与噪声瓶颈
AEF 的嵌入维度固定为 64(对应 64 字节),噪声参数 (\kappa = 8\times10^3) 在实验中实现了最佳平衡:在低样本(1‑shot、10‑shot)情境下稍增大噪声有助于提升最近邻检索的鲁棒性;在大样本(max‑shot)时则需要更高维度与更低噪声以保留细节信息。整体来看,AEF 在不同任务、不同样本规模和不同迁移方式下均表现出对嵌入容量的适度敏感,验证了设计的通用性。
六、全局嵌入字段的发布与应用
基于上述训练与评估,团队在 Google Earth Engine 上公开发布了 2017‑2024 年的年度嵌入字段(每层 64 通道、10 m² 分辨率),并提供 8‑bit 量化版本以降低存储与传输成本(约 4 倍压缩)。这些嵌入可直接用于:
- 快速专题制图:无需重新训练深度网络,仅通过 k‑NN 或线性探针即可得到土地利用、作物类型等高精度图件。
- 跨时空监测:利用嵌入的时间条件化特性,可在任意时间窗口内生成连续的地表状态估计,支持灾害响应、季节性作物监测等实时应用。
- 多模态检索:结合文本对齐的能力,可实现基于自然语言的地点检索或语义搜索,例如"寻找位于高海拔、植被稀疏的地区"。
- 下游模型微调:对特定任务(如森林碳储量、城市热岛)进行轻量级微调,仅需少量标注即可获得满意性能。
七、结论与展望
AlphaEarth Foundations 通过统一的时空嵌入场框架,成功解决了稀疏标签与海量观测之间的矛盾。其核心优势体现在:
- 任务无关的通用特征:一次训练即可支撑数十种不同的遥感任务,显著降低了每个新任务的模型研发成本。
- 高空间分辨率与时间灵活性:10 m² 的细粒度与任意时间段的条件化摘要,使得模型能够在操作层面直接替代传统的像素级合成或时序分析。
- 多源融合与噪声鲁棒:通过教师‑学生一致性学习和批次均匀性约束,模型在面对缺失或噪声观测时仍能保持稳定的嵌入输出。
- 开放数据与可复现:全套年度嵌入字段、评估数据集以及训练样本位置信息均以开放许可证发布,为学术界与产业界提供了统一的基准平台。
未来的工作方向包括:
- 扩展至海洋与极地观测:当前训练样本在极地和海面覆盖不足,进一步引入 SAR‑Ocean、海表温度等海洋数据可提升模型的全域适用性。
- 细粒度时序建模:虽然 AEF 已支持任意有效期的摘要,但对快速变化(如洪水、火灾)仍可通过更细的时间窗口或递归更新机制提升响应速度。
- 跨模态生成:利用已有的文本对齐能力,探索从嵌入直接生成自然语言描述或从文本生成对应的遥感图像。
- 自监督细化:在大规模未标注数据上加入更多自监督任务(如对比学习、遮挡重建),进一步提升嵌入的表征能力。
总之,AlphaEarth Foundations 为全球尺度的地理信息系统提供了一套高效、统一且可扩展的特征基础设施。它不仅在当前的稀疏标签环境下实现了显著的精度提升,也为未来更复杂的跨域、跨时空分析奠定了坚实的技术底座。随着更多观测平台的上线与数据共享的深化,AEF 及其衍生的嵌入字段有望成为地球科学、农业管理、公共卫生和灾害响应等领域的核心工具,帮助决策者在数据稀缺的现实中快速获得可靠的空间信息。