Earth-Agent：Unlocking the Full Landscape of Earth Observation with Agents

Earth-Agent 论文解读报告

论文标题 ：Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents
发表会议 ：ICLR 2026
arxiv ：2509.23141v3
作者：Peilin Feng, Zhutao Lv, Junyan Ye 等（上海人工智能实验室 / 中山大学 / 清华大学深圳研究生院）
开源地址 ：https://github.com/opendatalab/Earth-Agent
数据集：https://huggingface.co/datasets/Sssunset/Earth-Bench

一、论文概览

Earth-Agent 是第一个面向**地球观测（Earth Observation, EO）**的完整 Agent 框架，发表于 ICLR 2026。它将多模态大语言模型（MLLM）与专业地学工具库结合，在统一框架下支持 RGB 影像、原始光谱数据（Spectrum）和处理过的地球产品（Products）三类模态，实现跨模态、多步骤、定量的时空分析。

图 1：论文首页------对比了现有三类研究范式，右侧为 Earth-Agent 的核心贡献。

二、研究背景与动机

2.1 地球观测数据的两大类型

EO 数据通常分为两大类：

感知数据（Perceptual Data）：RGB 图像，与人类视觉对齐，直观易理解；
原始观测数据（Raw Observational Data）：包括原始光谱数据（Spectrum）和处理后的地球产品（Products），存储于 Google Earth Engine（GEE）、NASA EarthData 等地球数据库中，承载丰富的光谱与时空信息，是定量分析的基础。

2.2 现有方法的四大局限

基于 MLLM 的 EO 研究（如 GeoChat、RS-GPT）虽然在遥感感知任务上表现不错，但存在根本性缺陷：

局限	描述
① 模态单一	仅支持 RGB 图像，无法处理热红外（TIR）、合成孔径雷达（SAR）或高光谱影像
② 图像数量有限	每次只能处理一张或少数几张图像，难以扩展到大规模 EO 数据集
③ 推理层次浅	只能执行 VQA、分类等单步或浅层推理，无法完成复杂的多跳分析任务
④ 无法集成外部工具	受限于预训练参数中的静态知识，无法调用外部科学工具或专家模型

现有 Agent 类 EO 研究（如 Change-Agent、ThinkGeo、UnivEarth）虽然引入了工具调用，但仍存在：

大多局限于 RGB 感知任务，光谱数据支持极少
工具使用浅显，缺乏预定义的工具生态系统
评估协议不系统，只关注最终答案，忽视推理轨迹

这两方面问题共同提出了本文的核心问题：如何突破基础 RGB 感知和单步推理，设计一个集成多元 EO 模态、支持复杂多步骤科学分析的系统？

三、Earth-Agent 框架

图 3：Earth-Agent 完整框架------左侧展示 ReAct 风格的工作流（工具调用→记忆更新→思考→动作），右侧展示双层评估协议。

3.1 运作机制：ReAct 风格的 POMDP

Earth-Agent 将工作过程形式化为部分可观测马尔可夫决策过程（POMDP） ，定义为元组 ⟨ g , S , A , O , T ⟩ \langle g, S, A, O, T \rangle ⟨g,S,A,O,T⟩：

g g g：任务目标
S S S：状态空间（不可观测的地理空间数据文件、栅格值等）
A A A：动作空间（工具调用集合）
O O O：观测空间（工具返回的文本、数值、图像等输出）
T : S × A → S T: S \times A \rightarrow S T:S×A→S：状态转移函数

每一步推理循环依次执行：

① 工具调用（Tool Calling） ：基于当前记忆 m t m_t mt 和任务目标 g g g，调用最合适的工具，获得工具响应 o t + 1 o_{t+1} ot+1；
② 记忆更新（Memory Update） ：将 ( o t , a t ) (o_t, a_t) (ot,at) 和新观测 o t + 1 o_{t+1} ot+1 追加到记忆栈，保留完整交互历史；
③ 思考（Think） ：LLM 控制器基于更新后的记忆 m t m_t mt 和任务目标 g g g 规划下一步动作；
④ 动作（Action） ：选择并执行下一个工具调用 a t + 1 a_{t+1} at+1。

循环持续到停止条件满足，最终输出答案及可复现的工具调用轨迹。

3.2 工具库：104 个专业工具，5 大类别

Earth-Agent 基于**模型上下文协议（MCP）**构建了 104 个专业工具，按功能分为五个工具套件：

工具套件	数量	功能	典型工具
Index（指数）	12	常用 EO 指数计算	NDVI、NDWI、NBR
Inversion（反演）	18	地球物理参数反演	地表温度（LST）、降水水汽（PWV）、植被含水量
Perception（感知）	15	视觉感知任务	场景分类、目标检测、语义分割
Analysis（分析）	10	时空推理分析	趋势检测、季节性分解、变化点分析、空间自相关
Statistics（统计）	49	大规模数据预处理与统计计算	方差、偏度、批量操作、云掩膜

这一结构化设计不仅支持从感知到光谱、从描述性到定量分析的全类型 EO 任务，还具有良好的可扩展性------可方便地添加新的领域工具。

3.3 双层评估协议

端到端（End-to-End）评估：

准确率（Accuracy）：最终答案的正确率
效率（Efficiency）：相对于专家参考解的轨迹效率

逐步（Step-by-Step）评估：

指标	含义
Tool-Any-Order	检查是否使用了所有必要工具（不限顺序）
Tool-In-Order	工具调用顺序是否正确
Tool-Exact-Match	预测轨迹与专家轨迹的前缀级精确匹配
Parameters	工具标识符及参数是否正确匹配

四、Earth-Bench 基准

图 4：Earth-Bench 与现有基准的对比（左）及数据集统计与 SOTA LLM 测试结果（右）。

4.1 基准概况

Earth-Bench 是专为评估工具增强型 EO Agent 设计的专业基准，具备以下特点：

属性	数值
问题数量	248 道（专家精心设计）
图像数量	13,729 张
平均每题图像数	55.4 张
最多单题图像数	670 张
推理步骤总数	1,345 步
平均每题步骤数	5.42 步
最多单题步骤数	19 步

覆盖 14 类任务：分类、检测、分割、目标定位（Grounding）、计数、变化检测、温度监测、天气预报、气候分析、水资源管理、污染监管、植被监测、城市管理、灾害判断。

三种数据模态：Spectrum（光谱）、Products（地球产品）、RGB（光学影像）。

4.2 与现有基准的差距

Earth-Bench 远超现有 MLLM 和 Agent 类基准：

基准	图像规模	工具数量	推理步骤	轨迹评估
RSVQA-HR	1.7M	---	1	✗
EarthVQA	6K	---	1	✗
VRSBench	103K	---	1	✗
PEACE	0.12K	---	1	✗
ThinkGeo	0.3K	14	❤️	✗
UnivEarth	---	---	1	✗
Earth-Bench (Ours)	13K	104	>5	✓

4.3 数据标注流程

图 5：Earth-Bench 的构建与标注流程------左侧展示从 EO 数据生成问题，右侧展示模拟 ReAct 风格轨迹的标注流水线，底部给出多步标注示例。

标注团队由 2 名计算机科学专家 + 7 名遥感专家 + 3 名地球科学专家 组成，标注过程分三步：

Python Solution ：标注者确定所需工具并将其组装为逐步的 main() 程序；
Python Result：执行程序，获取每个函数调用的显式输入输出参数及最终结果；
JSON Annotation：将每个函数调用转换为结构化 JSON 记录，对齐 ReAct 风格的轨迹格式。

两种查询机制：

Auto-Planning（自主规划）：隐式步骤，评估 Agent 自主规划解题路径的能力；
Instruction-Following（指令跟随）：显式步骤，评估 Agent 将人类指令转化为可执行动作的能力。

五、实验结果

5.1 不同 LLM 骨干对比

论文评估了 3 个闭源 + 10 个开源 LLM 在 Earth-Bench 上的表现：

模型	准确率 (AP)	准确率 (IF)	Tool-Any-Order (AP)	Tool-Any-Order (IF)
GPT-5	65.99	62.35	68.74	71.41
Gemini-2.5	52.23	53.04	58.04	61.63
GPT-4o	43.72	44.94	65.65	67.02
Kimik2	50.61	56.68	71.03	78.86
DeepSeek-V3.1	51.42	52.23	78.31	78.66
Qwen3-Max	50.20	47.37	69.56	70.14
Seed-1.6	52.48	59.51	55.43	59.44
LLaMA-4	44.94	38.46	16.51	22.41
GLM-4.5v	32.86	35.25	42.48	46.69
Mistral	29.96	22.67	27.73	29.64
InternVL-3.5	26.72	26.72	8.83	16.62

AP = Auto-Planning（自主规划），IF = Instruction-Following（指令跟随）

关键观察：

Obs.1：预训练了工具调用能力的 LLM（GPT-5、Gemini-2.5、DeepSeek-V3.1、Kimik2、Qwen3）整体表现更强。闭源模型 GPT-5 最终准确率最高，但开源模型 DeepSeek-V3.1 和 Kimik2 在工具使用准确率上超越 GPT-5，展现出更强的推理轨迹对齐能力。
Obs.2：指令跟随模式提升了几乎所有模型的工具调用准确率，但有趣的是，对于部分高级模型，显式步骤反而可能导致最终准确率下降------过多约束可能限制模型的灵活推理。
Obs.3：大多数模型在 Tool-Any-Order 和 Tool-In-Order 上表现不错，但经常引入无关步骤，这严重拖累了 Tool-Exact-Match 和参数执行准确率。这一"精确执行瓶颈"是阻碍 EO Agent 达到更高最终准确率的关键问题。

5.2 与通用 Agent 框架对比

由于 Earth-Bench 中许多任务需要处理数百张图像，现有开源 Agent 框架因输入规模限制无法处理。论文构建了 Earth-Bench-Lite（60 道题，三种模态各 20 道）进行公平比较：

方法	Spectrum	Products	RGB	平均	延迟
GPT-Agent	45.00	31.60	45.26	40.42	≈300 min
MGX	40.00	15.80	0.00	18.60	≈60 min
Manus	15.00	15.80	47.62	26.14	≈150 min
Coze	35.00	10.50	0.00	15.30	≈120 min
Earth-Agent (GPT-5)	65.00	36.84	65.71	55.83	158 min
Earth-Agent (DeepSeek-V3.1)	50.00	42.11	51.43	47.84	79 min
Earth-Agent (Kimik2)	36.84	50.00	50.00	45.95	131 min

通用 Agent（GPT-Agent、Manus、Coze、MGX）能对 Spectrum 任务通过即兴编写代码勉强处理，但在 Products 任务上因缺少领域专用时空分析工具而大幅落后；MGX 和 Coze 甚至无法完成任何 RGB 任务。Earth-Agent 在三种模态上全面领先。

5.3 与遥感 MLLM 方法对比

方法	AID（分类）	WHU-RS19（分类）	DOTA（检测）	HRSC2016（检测）	DIOR-RSVG（定位）
MiniGPT-v2	32.96	64.80	14.8	24.8	29.892
LLaVA-1.5	51.00	74.52	17.5	22.1	12.085
GeoChat	72.03	86.47	16.5	24.0	10.024
VHM	91.70	95.80	---	---	---
LHRS-Bot	91.26	93.17	17.1	24.4	11.826
Earth-Agent (ours)	93.42	96.12	60.88	65.60	60.46

Earth-Agent 在所有对比基准上全面超越现有 MLLM 方法。特别在检测（DOTA、HRSC2016）和定位（DIOR-RSVG）任务上，提升幅度极为显著------这得益于其可调用的 104 个专业工具和专家模型，实现了跨任务类型的稳定泛化能力。

六、案例分析

案例 1：光谱数据定量推理（Spectrum）

图 2：Earth-Agent 在光谱（Spectrum）、地球产品（Products）和 RGB 三类数据上的多步推理工具调用示例。

问题：基于 2023 年 6-9 月黄河流域的温度和植被指数（LST 和 NDVI），计算干旱指数的峰值次数（对应严重干旱事件）。

Earth-Agent 解题流程：

get_filelist --- 获取数据文件列表
compute_tvdi --- 计算温度植被干旱指数（TVDI）
calc_batch_image_mean --- 批量计算图像均值
count_spikes_from_values --- 统计干旱指数峰值次数
Final Answer: B（2次）

案例 2：地球产品时空趋势分析（Products）

问题：利用 2013-2024 年莱昂市的夜间灯光强度数据，通过线性回归分析趋势。

Earth-Agent 解题流程：

get_filelist --- 获取文件列表
calc_batch_image_mean --- 批量计算图像均值
compute_linear_trend --- 线性趋势计算
Final Answer: B（斜率 0.12，截距 1.96）

案例 3：上海建筑体积线性趋势（复杂 Products 任务）

问题：基于 1980-2025 年上海的建筑总体积与非住宅体积数据，计算住宅体积整体变化的线性趋势。

Earth-Agent 解题流程：

get_filelist --- 获取数据目录（20张图像）
subtract --- 计算住宅体积 = 总量 - 非住宅
calc_batch_image_mean --- 批量计算均值（1980-2025年时序数据）
compute_linear_trend --- 拟合线性趋势
Final Answer: A（267.13 单位/年，呈强增长趋势）

七、核心贡献总结

复制代码

Earth-Agent 的三大贡献：

1. 首个 MCP 架构的 EO Agent 框架
   ├── 104 个专业地学工具（5大类）
   ├── ReAct 推理循环
   ├── 支持 RGB + Spectrum + Products 三模态
   └── 基于 MCP 协议，易于扩展

2. Earth-Bench 专业评估基准
   ├── 248 道专家级问题 + 13,729 张图像
   ├── 三种数据模态（RGB / Spectrum / Products）
   ├── 平均 5.4 步推理
   └── 双层评估（轨迹 + 结果）

3. 全面实验验证
   ├── 13 种 LLM 骨干评测
   ├── 对比 4 种通用 Agent（GPT-Agent/Manus/Coze/MGX）
   └── 对比 6 种遥感 MLLM（GeoChat/VHM/LHRS-Bot 等）

八、意义与展望

范式转变

Earth-Agent 标志着 EO 分析从"静态预训练 MLLM 推理 "向"动态工具增强 Agent 推理"的范式转变：

对比维度	传统 MLLM	Earth-Agent
数据模态	仅 RGB	RGB + 光谱 + 地球产品
图像数量	1-数张	数百张
推理深度	单步感知	多步定量分析
工具集成	无	104 个专业工具
评估维度	最终答案	轨迹 + 结果双层

当前瓶颈

从实验结果来看，EO Agent 面临的主要瓶颈是精确执行能力：模型往往能识别正确的工具集（Tool-Any-Order 表现好），但容易引入多余步骤，导致 Tool-Exact-Match 和参数准确率偏低。这在真实 EO 数据处理中后果严重------错误的中间变换会使后续步骤完全失效。

未来方向

提升 LLM 对工具参数的精确控制能力（精确执行）
扩展工具库到更多地球科学子领域
提升 Agent 在更大规模图像集（数千张）上的处理效率
引入更强的地球科学先验知识

九、参考资源

论文：arxiv 2509.23141
代码：GitHub - opendatalab/Earth-Agent
基准数据集 ：HuggingFace - Earth-Bench
项目主页 ：Earth-Agent Project Page