Earth-Agent:Unlocking the Full Landscape of Earth Observation with Agents

Earth-Agent 论文解读报告

论文标题 :Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents
发表会议 :ICLR 2026
arxiv :2509.23141v3
作者 :Peilin Feng, Zhutao Lv, Junyan Ye 等(上海人工智能实验室 / 中山大学 / 清华大学深圳研究生院)
开源地址https://github.com/opendatalab/Earth-Agent
数据集https://huggingface.co/datasets/Sssunset/Earth-Bench


一、论文概览

Earth-Agent 是第一个面向**地球观测(Earth Observation, EO)**的完整 Agent 框架,发表于 ICLR 2026。它将多模态大语言模型(MLLM)与专业地学工具库结合,在统一框架下支持 RGB 影像、原始光谱数据(Spectrum)和处理过的地球产品(Products)三类模态,实现跨模态、多步骤、定量的时空分析。

图 1:论文首页------对比了现有三类研究范式,右侧为 Earth-Agent 的核心贡献。


二、研究背景与动机

2.1 地球观测数据的两大类型

EO 数据通常分为两大类:

  • 感知数据(Perceptual Data):RGB 图像,与人类视觉对齐,直观易理解;
  • 原始观测数据(Raw Observational Data):包括原始光谱数据(Spectrum)和处理后的地球产品(Products),存储于 Google Earth Engine(GEE)、NASA EarthData 等地球数据库中,承载丰富的光谱与时空信息,是定量分析的基础。

2.2 现有方法的四大局限

基于 MLLM 的 EO 研究(如 GeoChat、RS-GPT)虽然在遥感感知任务上表现不错,但存在根本性缺陷:

局限 描述
① 模态单一 仅支持 RGB 图像,无法处理热红外(TIR)、合成孔径雷达(SAR)或高光谱影像
② 图像数量有限 每次只能处理一张或少数几张图像,难以扩展到大规模 EO 数据集
③ 推理层次浅 只能执行 VQA、分类等单步或浅层推理,无法完成复杂的多跳分析任务
④ 无法集成外部工具 受限于预训练参数中的静态知识,无法调用外部科学工具或专家模型

现有 Agent 类 EO 研究(如 Change-Agent、ThinkGeo、UnivEarth)虽然引入了工具调用,但仍存在:

  • 大多局限于 RGB 感知任务,光谱数据支持极少
  • 工具使用浅显,缺乏预定义的工具生态系统
  • 评估协议不系统,只关注最终答案,忽视推理轨迹

这两方面问题共同提出了本文的核心问题:如何突破基础 RGB 感知和单步推理,设计一个集成多元 EO 模态、支持复杂多步骤科学分析的系统?


三、Earth-Agent 框架

图 3:Earth-Agent 完整框架------左侧展示 ReAct 风格的工作流(工具调用→记忆更新→思考→动作),右侧展示双层评估协议。

3.1 运作机制:ReAct 风格的 POMDP

Earth-Agent 将工作过程形式化为部分可观测马尔可夫决策过程(POMDP) ,定义为元组 ⟨ g , S , A , O , T ⟩ \langle g, S, A, O, T \rangle ⟨g,S,A,O,T⟩:

  • g g g:任务目标
  • S S S:状态空间(不可观测的地理空间数据文件、栅格值等)
  • A A A:动作空间(工具调用集合)
  • O O O:观测空间(工具返回的文本、数值、图像等输出)
  • T : S × A → S T: S \times A \rightarrow S T:S×A→S:状态转移函数

每一步推理循环依次执行:

  1. ① 工具调用(Tool Calling) :基于当前记忆 m t m_t mt 和任务目标 g g g,调用最合适的工具,获得工具响应 o t + 1 o_{t+1} ot+1;
  2. ② 记忆更新(Memory Update) :将 ( o t , a t ) (o_t, a_t) (ot,at) 和新观测 o t + 1 o_{t+1} ot+1 追加到记忆栈,保留完整交互历史;
  3. ③ 思考(Think) :LLM 控制器基于更新后的记忆 m t m_t mt 和任务目标 g g g 规划下一步动作;
  4. ④ 动作(Action) :选择并执行下一个工具调用 a t + 1 a_{t+1} at+1。

循环持续到停止条件满足,最终输出答案及可复现的工具调用轨迹。

3.2 工具库:104 个专业工具,5 大类别

Earth-Agent 基于**模型上下文协议(MCP)**构建了 104 个专业工具,按功能分为五个工具套件:

工具套件 数量 功能 典型工具
Index(指数) 12 常用 EO 指数计算 NDVI、NDWI、NBR
Inversion(反演) 18 地球物理参数反演 地表温度(LST)、降水水汽(PWV)、植被含水量
Perception(感知) 15 视觉感知任务 场景分类、目标检测、语义分割
Analysis(分析) 10 时空推理分析 趋势检测、季节性分解、变化点分析、空间自相关
Statistics(统计) 49 大规模数据预处理与统计计算 方差、偏度、批量操作、云掩膜

这一结构化设计不仅支持从感知到光谱、从描述性到定量分析的全类型 EO 任务,还具有良好的可扩展性------可方便地添加新的领域工具。

3.3 双层评估协议

端到端(End-to-End)评估

  • 准确率(Accuracy):最终答案的正确率
  • 效率(Efficiency):相对于专家参考解的轨迹效率

逐步(Step-by-Step)评估

指标 含义
Tool-Any-Order 检查是否使用了所有必要工具(不限顺序)
Tool-In-Order 工具调用顺序是否正确
Tool-Exact-Match 预测轨迹与专家轨迹的前缀级精确匹配
Parameters 工具标识符及参数是否正确匹配

四、Earth-Bench 基准

图 4:Earth-Bench 与现有基准的对比(左)及数据集统计与 SOTA LLM 测试结果(右)。

4.1 基准概况

Earth-Bench 是专为评估工具增强型 EO Agent 设计的专业基准,具备以下特点:

属性 数值
问题数量 248 道(专家精心设计)
图像数量 13,729
平均每题图像数 55.4 张
最多单题图像数 670 张
推理步骤总数 1,345 步
平均每题步骤数 5.42 步
最多单题步骤数 19 步

覆盖 14 类任务:分类、检测、分割、目标定位(Grounding)、计数、变化检测、温度监测、天气预报、气候分析、水资源管理、污染监管、植被监测、城市管理、灾害判断。

三种数据模态:Spectrum(光谱)、Products(地球产品)、RGB(光学影像)。

4.2 与现有基准的差距

Earth-Bench 远超现有 MLLM 和 Agent 类基准:

基准 图像规模 工具数量 推理步骤 轨迹评估
RSVQA-HR 1.7M --- 1
EarthVQA 6K --- 1
VRSBench 103K --- 1
PEACE 0.12K --- 1
ThinkGeo 0.3K 14 ❤️
UnivEarth --- --- 1
Earth-Bench (Ours) 13K 104 >5

4.3 数据标注流程

图 5:Earth-Bench 的构建与标注流程------左侧展示从 EO 数据生成问题,右侧展示模拟 ReAct 风格轨迹的标注流水线,底部给出多步标注示例。

标注团队由 2 名计算机科学专家 + 7 名遥感专家 + 3 名地球科学专家 组成,标注过程分三步:

  1. Python Solution :标注者确定所需工具并将其组装为逐步的 main() 程序;
  2. Python Result:执行程序,获取每个函数调用的显式输入输出参数及最终结果;
  3. JSON Annotation:将每个函数调用转换为结构化 JSON 记录,对齐 ReAct 风格的轨迹格式。

两种查询机制

  • Auto-Planning(自主规划):隐式步骤,评估 Agent 自主规划解题路径的能力;
  • Instruction-Following(指令跟随):显式步骤,评估 Agent 将人类指令转化为可执行动作的能力。

五、实验结果

5.1 不同 LLM 骨干对比

论文评估了 3 个闭源 + 10 个开源 LLM 在 Earth-Bench 上的表现:

模型 准确率 (AP) 准确率 (IF) Tool-Any-Order (AP) Tool-Any-Order (IF)
GPT-5 65.99 62.35 68.74 71.41
Gemini-2.5 52.23 53.04 58.04 61.63
GPT-4o 43.72 44.94 65.65 67.02
Kimik2 50.61 56.68 71.03 78.86
DeepSeek-V3.1 51.42 52.23 78.31 78.66
Qwen3-Max 50.20 47.37 69.56 70.14
Seed-1.6 52.48 59.51 55.43 59.44
LLaMA-4 44.94 38.46 16.51 22.41
GLM-4.5v 32.86 35.25 42.48 46.69
Mistral 29.96 22.67 27.73 29.64
InternVL-3.5 26.72 26.72 8.83 16.62

AP = Auto-Planning(自主规划),IF = Instruction-Following(指令跟随)

关键观察

  • Obs.1:预训练了工具调用能力的 LLM(GPT-5、Gemini-2.5、DeepSeek-V3.1、Kimik2、Qwen3)整体表现更强。闭源模型 GPT-5 最终准确率最高,但开源模型 DeepSeek-V3.1 和 Kimik2 在工具使用准确率上超越 GPT-5,展现出更强的推理轨迹对齐能力。

  • Obs.2:指令跟随模式提升了几乎所有模型的工具调用准确率,但有趣的是,对于部分高级模型,显式步骤反而可能导致最终准确率下降------过多约束可能限制模型的灵活推理。

  • Obs.3:大多数模型在 Tool-Any-Order 和 Tool-In-Order 上表现不错,但经常引入无关步骤,这严重拖累了 Tool-Exact-Match 和参数执行准确率。这一"精确执行瓶颈"是阻碍 EO Agent 达到更高最终准确率的关键问题。

5.2 与通用 Agent 框架对比

由于 Earth-Bench 中许多任务需要处理数百张图像,现有开源 Agent 框架因输入规模限制无法处理。论文构建了 Earth-Bench-Lite(60 道题,三种模态各 20 道)进行公平比较:

方法 Spectrum Products RGB 平均 延迟
GPT-Agent 45.00 31.60 45.26 40.42 ≈300 min
MGX 40.00 15.80 0.00 18.60 ≈60 min
Manus 15.00 15.80 47.62 26.14 ≈150 min
Coze 35.00 10.50 0.00 15.30 ≈120 min
Earth-Agent (GPT-5) 65.00 36.84 65.71 55.83 158 min
Earth-Agent (DeepSeek-V3.1) 50.00 42.11 51.43 47.84 79 min
Earth-Agent (Kimik2) 36.84 50.00 50.00 45.95 131 min

通用 Agent(GPT-Agent、Manus、Coze、MGX)能对 Spectrum 任务通过即兴编写代码勉强处理,但在 Products 任务上因缺少领域专用时空分析工具而大幅落后;MGX 和 Coze 甚至无法完成任何 RGB 任务。Earth-Agent 在三种模态上全面领先。

5.3 与遥感 MLLM 方法对比

方法 AID(分类) WHU-RS19(分类) DOTA(检测) HRSC2016(检测) DIOR-RSVG(定位)
MiniGPT-v2 32.96 64.80 14.8 24.8 29.892
LLaVA-1.5 51.00 74.52 17.5 22.1 12.085
GeoChat 72.03 86.47 16.5 24.0 10.024
VHM 91.70 95.80 --- --- ---
LHRS-Bot 91.26 93.17 17.1 24.4 11.826
Earth-Agent (ours) 93.42 96.12 60.88 65.60 60.46

Earth-Agent 在所有对比基准上全面超越现有 MLLM 方法。特别在检测(DOTA、HRSC2016)和定位(DIOR-RSVG)任务上,提升幅度极为显著------这得益于其可调用的 104 个专业工具和专家模型,实现了跨任务类型的稳定泛化能力。


六、案例分析

案例 1:光谱数据定量推理(Spectrum)

图 2:Earth-Agent 在光谱(Spectrum)、地球产品(Products)和 RGB 三类数据上的多步推理工具调用示例。

问题:基于 2023 年 6-9 月黄河流域的温度和植被指数(LST 和 NDVI),计算干旱指数的峰值次数(对应严重干旱事件)。

Earth-Agent 解题流程

  1. get_filelist --- 获取数据文件列表
  2. compute_tvdi --- 计算温度植被干旱指数(TVDI)
  3. calc_batch_image_mean --- 批量计算图像均值
  4. count_spikes_from_values --- 统计干旱指数峰值次数
  5. Final Answer: B(2次)

案例 2:地球产品时空趋势分析(Products)

问题:利用 2013-2024 年莱昂市的夜间灯光强度数据,通过线性回归分析趋势。

Earth-Agent 解题流程

  1. get_filelist --- 获取文件列表
  2. calc_batch_image_mean --- 批量计算图像均值
  3. compute_linear_trend --- 线性趋势计算
  4. Final Answer: B(斜率 0.12,截距 1.96)

案例 3:上海建筑体积线性趋势(复杂 Products 任务)

问题:基于 1980-2025 年上海的建筑总体积与非住宅体积数据,计算住宅体积整体变化的线性趋势。

Earth-Agent 解题流程

  1. get_filelist --- 获取数据目录(20张图像)
  2. subtract --- 计算住宅体积 = 总量 - 非住宅
  3. calc_batch_image_mean --- 批量计算均值(1980-2025年时序数据)
  4. compute_linear_trend --- 拟合线性趋势
  5. Final Answer: A(267.13 单位/年,呈强增长趋势)

七、核心贡献总结

复制代码
Earth-Agent 的三大贡献:

1. 首个 MCP 架构的 EO Agent 框架
   ├── 104 个专业地学工具(5大类)
   ├── ReAct 推理循环
   ├── 支持 RGB + Spectrum + Products 三模态
   └── 基于 MCP 协议,易于扩展

2. Earth-Bench 专业评估基准
   ├── 248 道专家级问题 + 13,729 张图像
   ├── 三种数据模态(RGB / Spectrum / Products)
   ├── 平均 5.4 步推理
   └── 双层评估(轨迹 + 结果)

3. 全面实验验证
   ├── 13 种 LLM 骨干评测
   ├── 对比 4 种通用 Agent(GPT-Agent/Manus/Coze/MGX)
   └── 对比 6 种遥感 MLLM(GeoChat/VHM/LHRS-Bot 等)

八、意义与展望

范式转变

Earth-Agent 标志着 EO 分析从"静态预训练 MLLM 推理 "向"动态工具增强 Agent 推理"的范式转变:

对比维度 传统 MLLM Earth-Agent
数据模态 仅 RGB RGB + 光谱 + 地球产品
图像数量 1-数张 数百张
推理深度 单步感知 多步定量分析
工具集成 104 个专业工具
评估维度 最终答案 轨迹 + 结果双层

当前瓶颈

从实验结果来看,EO Agent 面临的主要瓶颈是精确执行能力:模型往往能识别正确的工具集(Tool-Any-Order 表现好),但容易引入多余步骤,导致 Tool-Exact-Match 和参数准确率偏低。这在真实 EO 数据处理中后果严重------错误的中间变换会使后续步骤完全失效。

未来方向

  • 提升 LLM 对工具参数的精确控制能力(精确执行)
  • 扩展工具库到更多地球科学子领域
  • 提升 Agent 在更大规模图像集(数千张)上的处理效率
  • 引入更强的地球科学先验知识

九、参考资源


相关推荐
sali-tec2 小时前
C# 基于OpenCv的视觉工作流-章35-组件连通
图像处理·人工智能·opencv·算法·计算机视觉
Are_You_Okkk_2 小时前
适配集团/事业部/扁平化组织:开源知识库的落地策略与价值
人工智能·架构·开源
新缸中之脑2 小时前
LLM训练数据集简介
人工智能
hqyjzsb2 小时前
AI产品经理成长路径:如何从零打造属于自己的AI项目经验。
人工智能·职场和发展·产品经理·创业创新·学习方法·信息与通信·业界资讯
AngelPP2 小时前
软件的下一个用户不是人类,而是 Agent
人工智能
·中年程序渣·2 小时前
Spring AI Alibaba入门学习(五)
人工智能·学习
愣锤2 小时前
深入分析OpenClaw爆火出圈的根本原因
人工智能·openai·agent
RuiBo_Qiu2 小时前
【LLM进阶-Agent】9. self-discover Agent 介绍
人工智能·ai-native
阿拉斯攀登2 小时前
记忆的困境:RNN 与 LSTM 的底层逻辑
人工智能·rnn·深度学习·ai·大模型·llm·lstm