REOBench:地球观测基础模型的鲁棒性评估

地球观测基础模型(Earth Observation Foundation Models)是一类用于地球观测的预训练模型,其下游应用场景众多,包括城市规划、灾害响应、环境监测等。

地球光学图像容易受天气(云、雾等)和观测设备(设备角度偏移、设备高度变化、设备数据传输等)的影响。当输入的地球光学图像受到影响时,地球观测基础模型能否稳健地工作呢?近期发表的一篇论文[1]系统性地评估了多种地球观测基础模型在完成多种地球观测任务时,针对受扰动的输入图像的鲁棒性。

REOBench数据集

为了评估地球观测基础模型的鲁棒性,上述论文的作者们汇集了遥感领域的多个数据集,包括:

  • AID------遥感领域的图像场景分类(Scene Classification)基准数据集;
  • ISPRS Potsdam------遥感领域的语义分割基准数据集;
  • DIOR------遥感领域的目标检测基准数据集;
  • VRSBench数据集的部分子集,用于遥感领域的图像字幕(Image Captioning)、视觉问答(Visual Question Answering)和视觉定位(Visual Grounding)任务的评测。

为了模拟实际环境中的干扰,上述论文的作者们基于这些数据集中的图像,使用了十二种图像扰动,并且针对每种扰动,采用了五个扰动强度生成新的图像。

上述的原始图像以及受扰动图像共同构成了REOBench数据集。

十二种图像扰动包括:高斯噪音(Gaussian Noise)、椒盐噪音(Salt Pepper Noise)、高斯模糊(Gaussian Blur)、运动模糊(Motion Blur)、亮度(Brightness)、云(Cloud)、雾(Haze)、数据间隙(Data Gaps)、压缩伪影(Compression Artifacts)、旋转(Rotation)、缩放(Scaling)、以及平移(Translation)。

上图示例了十二种图像扰动[1];其中,第一行包括原始图像、以及经过五种不同强度的"运动模糊"扰动后的图像;下面两行是经过十二种扰动后的图像。

评估方法

通过衡量图像扰动所导致的模型性能下降,就能够评估地球观测基础模型的鲁棒性[1]。性能下降定义为模型在原始图像上的性能与在扰动后图像上性能的差值;较少的性能下降表示模型具有较强的鲁棒性。

上述论文按照以下多个维度对地球观测基础模型的鲁棒性进行了评估:

  • 不同的地球观测基础模型------包括:(1)基于掩码图像建模(Masked Image Modeling)的模型:SATLAS、SatMAE、RVSA、ScaleMAE、以及SatMAE++,(2)基于对比学习(Contrastive Learning)的模型:RemoteCLIP、以及GeoRSCLIP,(3)基于大语言模型(LLM)的模型:GeoChat、LHRS-Bot、RS-LLaVA、VHM、SkySenseGPT、GeoGround、以及Falcon;
  • 六种地球观测任务------包括:图像场景分类(Scene Classification)、语义分割、目标检测、图像字幕(Image Captioning)、视觉问答(Visual Question Answering)、以及视觉定位(Visual Grounding);
  • 上文提及的十二种图像扰动。

评估结果

评估结果显示,现有的地球观测基础模型在面临图像扰动时均出现性能下降。不同的模型架构、模型骨干大小、地球观测任务类型、以及图像扰动类型所对应的性能下降幅度各异,从不到1%到超过20%不等。基于LLM的地球观测基础模型在大多数扰动类型下表现出相对较强的鲁棒性,性能下降的幅度通常低于5%。

局限性及其它

REOBench数据集为地球观测基础模型提供了重要的评估工具,但其仍存在一些局限性,例如:

  • 仅涵盖了高分辨率光学图像,未涵盖多光谱、高光谱和合成孔径雷达(SAR)等其它模态的数据;
  • 涵盖的地球观测任务未包括变化检测(Change Detection)、区域字幕(Region Captioning)、目标计数(Object Counting)等,未来有待进一步扩展任务涵盖范围。

上述论文的代码和数据公开在:github.com/lx709/REOBe...、以及huggingface.co/datasets/xi...

附录:地球观测任务示例

下图为目标检测任务的示例[1],其中,上下两行分别为原始图像及其目标检测结果。

下图为语义分割任务的示例[1],其中,上下两行分别为原始图像及其语义分割结果。

下图为图像字幕(Image Captioning)任务的示例[1],其中,GT代表Ground Truth(真实值)。

下图为视觉问答(Visual Question Answering)任务的示例[1],其中,GT代表Ground Truth(真实值)。

参考文献

1\] REOBench: Benchmarking Robustness of Earth Observation Foundation Models [arxiv.org/abs/2505.16...](https://link.juejin.cn?target=https%3A%2F%2Farxiv.org%2Fabs%2F2505.16793 "https://arxiv.org/abs/2505.16793") 使用许可协议:CC BY [creativecommons.org/licenses/by...](https://link.juejin.cn?target=https%3A%2F%2Fcreativecommons.org%2Flicenses%2Fby%2F4.0%2F "https://creativecommons.org/licenses/by/4.0/")

相关推荐
Surmon23 分钟前
彻底搞懂大模型 Temperature、Top-p、Top-k 的区别!
前端·人工智能
见行AGV机器人2 小时前
无人机脉动线中的AGV小车
人工智能·无人机·agv·非标定制agv
廋到被风吹走3 小时前
【AI】从 OpenAI Codex 到 GitHub Copilot:AI 编程助手的技术演进脉络
人工智能·github·copilot
沐苏瑶3 小时前
Java 搜索型数据结构全解:二叉搜索树、Map/Set 体系与哈希表
java·数据结构·算法
newsxun3 小时前
DHA之后,大脑营养进入GPC时代?
人工智能
程序员Better3 小时前
2026年AI大模型选择指南:8大主流模型深度对比,小白秒懂如何选!
人工智能
ai_xiaogui3 小时前
AIStarter新版后端原型图详解:架构全面升级+共享环境一键部署,本地AI模型插件工作流管理新时代来临(2026开发者必看)
人工智能·架构·推动开源ai落地·原型图细节·aistarter新版·aistarter新版原型图·架构全面升级+共享环境一键部署
2501_926978333 小时前
“LLM的智能本质--AGI的可能路径--人类的意识本质”三者的统一基底(5.0理论解读)
人工智能·经验分享·笔记·深度学习·机器学习·ai写作·agi
拾光向日葵3 小时前
2026贵州高职专科报考全问答合集:专业、就业与实力大盘点
大数据·人工智能·物联网
لا معنى له3 小时前
WAM与AC-WM:具身智能时代的世界动作模型与动作条件世界模型
人工智能·笔记·学习