REOBench:地球观测基础模型的鲁棒性评估

地球观测基础模型(Earth Observation Foundation Models)是一类用于地球观测的预训练模型,其下游应用场景众多,包括城市规划、灾害响应、环境监测等。

地球光学图像容易受天气(云、雾等)和观测设备(设备角度偏移、设备高度变化、设备数据传输等)的影响。当输入的地球光学图像受到影响时,地球观测基础模型能否稳健地工作呢?近期发表的一篇论文[1]系统性地评估了多种地球观测基础模型在完成多种地球观测任务时,针对受扰动的输入图像的鲁棒性。

REOBench数据集

为了评估地球观测基础模型的鲁棒性,上述论文的作者们汇集了遥感领域的多个数据集,包括:

  • AID------遥感领域的图像场景分类(Scene Classification)基准数据集;
  • ISPRS Potsdam------遥感领域的语义分割基准数据集;
  • DIOR------遥感领域的目标检测基准数据集;
  • VRSBench数据集的部分子集,用于遥感领域的图像字幕(Image Captioning)、视觉问答(Visual Question Answering)和视觉定位(Visual Grounding)任务的评测。

为了模拟实际环境中的干扰,上述论文的作者们基于这些数据集中的图像,使用了十二种图像扰动,并且针对每种扰动,采用了五个扰动强度生成新的图像。

上述的原始图像以及受扰动图像共同构成了REOBench数据集。

十二种图像扰动包括:高斯噪音(Gaussian Noise)、椒盐噪音(Salt Pepper Noise)、高斯模糊(Gaussian Blur)、运动模糊(Motion Blur)、亮度(Brightness)、云(Cloud)、雾(Haze)、数据间隙(Data Gaps)、压缩伪影(Compression Artifacts)、旋转(Rotation)、缩放(Scaling)、以及平移(Translation)。

上图示例了十二种图像扰动[1];其中,第一行包括原始图像、以及经过五种不同强度的"运动模糊"扰动后的图像;下面两行是经过十二种扰动后的图像。

评估方法

通过衡量图像扰动所导致的模型性能下降,就能够评估地球观测基础模型的鲁棒性[1]。性能下降定义为模型在原始图像上的性能与在扰动后图像上性能的差值;较少的性能下降表示模型具有较强的鲁棒性。

上述论文按照以下多个维度对地球观测基础模型的鲁棒性进行了评估:

  • 不同的地球观测基础模型------包括:(1)基于掩码图像建模(Masked Image Modeling)的模型:SATLAS、SatMAE、RVSA、ScaleMAE、以及SatMAE++,(2)基于对比学习(Contrastive Learning)的模型:RemoteCLIP、以及GeoRSCLIP,(3)基于大语言模型(LLM)的模型:GeoChat、LHRS-Bot、RS-LLaVA、VHM、SkySenseGPT、GeoGround、以及Falcon;
  • 六种地球观测任务------包括:图像场景分类(Scene Classification)、语义分割、目标检测、图像字幕(Image Captioning)、视觉问答(Visual Question Answering)、以及视觉定位(Visual Grounding);
  • 上文提及的十二种图像扰动。

评估结果

评估结果显示,现有的地球观测基础模型在面临图像扰动时均出现性能下降。不同的模型架构、模型骨干大小、地球观测任务类型、以及图像扰动类型所对应的性能下降幅度各异,从不到1%到超过20%不等。基于LLM的地球观测基础模型在大多数扰动类型下表现出相对较强的鲁棒性,性能下降的幅度通常低于5%。

局限性及其它

REOBench数据集为地球观测基础模型提供了重要的评估工具,但其仍存在一些局限性,例如:

  • 仅涵盖了高分辨率光学图像,未涵盖多光谱、高光谱和合成孔径雷达(SAR)等其它模态的数据;
  • 涵盖的地球观测任务未包括变化检测(Change Detection)、区域字幕(Region Captioning)、目标计数(Object Counting)等,未来有待进一步扩展任务涵盖范围。

上述论文的代码和数据公开在:github.com/lx709/REOBe...、以及huggingface.co/datasets/xi...

附录:地球观测任务示例

下图为目标检测任务的示例[1],其中,上下两行分别为原始图像及其目标检测结果。

下图为语义分割任务的示例[1],其中,上下两行分别为原始图像及其语义分割结果。

下图为图像字幕(Image Captioning)任务的示例[1],其中,GT代表Ground Truth(真实值)。

下图为视觉问答(Visual Question Answering)任务的示例[1],其中,GT代表Ground Truth(真实值)。

参考文献

1\] REOBench: Benchmarking Robustness of Earth Observation Foundation Models [arxiv.org/abs/2505.16...](https://link.juejin.cn?target=https%3A%2F%2Farxiv.org%2Fabs%2F2505.16793 "https://arxiv.org/abs/2505.16793") 使用许可协议:CC BY [creativecommons.org/licenses/by...](https://link.juejin.cn?target=https%3A%2F%2Fcreativecommons.org%2Flicenses%2Fby%2F4.0%2F "https://creativecommons.org/licenses/by/4.0/")

相关推荐
Python 老手19 分钟前
Python while 循环 极简核心讲解
java·python·算法
@Aurora.23 分钟前
优选算法【专题九:哈希表】
算法·哈希算法·散列表
weisian15143 分钟前
进阶篇-8-数学篇-7--特征值与特征向量:AI特征提取的核心逻辑
人工智能·pca·特征值·特征向量·降维
Java程序员 拥抱ai1 小时前
撰写「从0到1构建下一代游戏AI客服」系列技术博客的初衷
人工智能
爱看科技1 小时前
微美全息(NASDAQ:WIMI)研究拜占庭容错联邦学习算法,数据安全与隐私保护的双重保障
算法
186******205311 小时前
AI重构项目开发全流程:效率革命与实践指南
人工智能·重构
qq_417129251 小时前
C++中的桥接模式变体
开发语言·c++·算法
森之鸟1 小时前
多智能体系统开发入门:用鸿蒙实现设备间的AI协同决策
人工智能·harmonyos·m
铁蛋AI编程实战1 小时前
大模型本地轻量化微调+端侧部署实战(免高端GPU/16G PC可运行)
人工智能·架构·开源
铁蛋AI编程实战1 小时前
最新版 Kimi K2.5 完整使用教程:从入门到实战(开源部署+API接入+多模态核心功能)
人工智能·开源