REOBench:地球观测基础模型的鲁棒性评估

地球观测基础模型(Earth Observation Foundation Models)是一类用于地球观测的预训练模型,其下游应用场景众多,包括城市规划、灾害响应、环境监测等。

地球光学图像容易受天气(云、雾等)和观测设备(设备角度偏移、设备高度变化、设备数据传输等)的影响。当输入的地球光学图像受到影响时,地球观测基础模型能否稳健地工作呢?近期发表的一篇论文[1]系统性地评估了多种地球观测基础模型在完成多种地球观测任务时,针对受扰动的输入图像的鲁棒性。

REOBench数据集

为了评估地球观测基础模型的鲁棒性,上述论文的作者们汇集了遥感领域的多个数据集,包括:

  • AID------遥感领域的图像场景分类(Scene Classification)基准数据集;
  • ISPRS Potsdam------遥感领域的语义分割基准数据集;
  • DIOR------遥感领域的目标检测基准数据集;
  • VRSBench数据集的部分子集,用于遥感领域的图像字幕(Image Captioning)、视觉问答(Visual Question Answering)和视觉定位(Visual Grounding)任务的评测。

为了模拟实际环境中的干扰,上述论文的作者们基于这些数据集中的图像,使用了十二种图像扰动,并且针对每种扰动,采用了五个扰动强度生成新的图像。

上述的原始图像以及受扰动图像共同构成了REOBench数据集。

十二种图像扰动包括:高斯噪音(Gaussian Noise)、椒盐噪音(Salt Pepper Noise)、高斯模糊(Gaussian Blur)、运动模糊(Motion Blur)、亮度(Brightness)、云(Cloud)、雾(Haze)、数据间隙(Data Gaps)、压缩伪影(Compression Artifacts)、旋转(Rotation)、缩放(Scaling)、以及平移(Translation)。

上图示例了十二种图像扰动[1];其中,第一行包括原始图像、以及经过五种不同强度的"运动模糊"扰动后的图像;下面两行是经过十二种扰动后的图像。

评估方法

通过衡量图像扰动所导致的模型性能下降,就能够评估地球观测基础模型的鲁棒性[1]。性能下降定义为模型在原始图像上的性能与在扰动后图像上性能的差值;较少的性能下降表示模型具有较强的鲁棒性。

上述论文按照以下多个维度对地球观测基础模型的鲁棒性进行了评估:

  • 不同的地球观测基础模型------包括:(1)基于掩码图像建模(Masked Image Modeling)的模型:SATLAS、SatMAE、RVSA、ScaleMAE、以及SatMAE++,(2)基于对比学习(Contrastive Learning)的模型:RemoteCLIP、以及GeoRSCLIP,(3)基于大语言模型(LLM)的模型:GeoChat、LHRS-Bot、RS-LLaVA、VHM、SkySenseGPT、GeoGround、以及Falcon;
  • 六种地球观测任务------包括:图像场景分类(Scene Classification)、语义分割、目标检测、图像字幕(Image Captioning)、视觉问答(Visual Question Answering)、以及视觉定位(Visual Grounding);
  • 上文提及的十二种图像扰动。

评估结果

评估结果显示,现有的地球观测基础模型在面临图像扰动时均出现性能下降。不同的模型架构、模型骨干大小、地球观测任务类型、以及图像扰动类型所对应的性能下降幅度各异,从不到1%到超过20%不等。基于LLM的地球观测基础模型在大多数扰动类型下表现出相对较强的鲁棒性,性能下降的幅度通常低于5%。

局限性及其它

REOBench数据集为地球观测基础模型提供了重要的评估工具,但其仍存在一些局限性,例如:

  • 仅涵盖了高分辨率光学图像,未涵盖多光谱、高光谱和合成孔径雷达(SAR)等其它模态的数据;
  • 涵盖的地球观测任务未包括变化检测(Change Detection)、区域字幕(Region Captioning)、目标计数(Object Counting)等,未来有待进一步扩展任务涵盖范围。

上述论文的代码和数据公开在:github.com/lx709/REOBe...、以及huggingface.co/datasets/xi...

附录:地球观测任务示例

下图为目标检测任务的示例[1],其中,上下两行分别为原始图像及其目标检测结果。

下图为语义分割任务的示例[1],其中,上下两行分别为原始图像及其语义分割结果。

下图为图像字幕(Image Captioning)任务的示例[1],其中,GT代表Ground Truth(真实值)。

下图为视觉问答(Visual Question Answering)任务的示例[1],其中,GT代表Ground Truth(真实值)。

参考文献

1\] REOBench: Benchmarking Robustness of Earth Observation Foundation Models [arxiv.org/abs/2505.16...](https://link.juejin.cn?target=https%3A%2F%2Farxiv.org%2Fabs%2F2505.16793 "https://arxiv.org/abs/2505.16793") 使用许可协议:CC BY [creativecommons.org/licenses/by...](https://link.juejin.cn?target=https%3A%2F%2Fcreativecommons.org%2Flicenses%2Fby%2F4.0%2F "https://creativecommons.org/licenses/by/4.0/")

相关推荐
MicroTech202531 分钟前
微算法科技(MLGO)研发突破性低复杂度CFG算法,成功缓解边缘分裂学习中的掉队者问题
科技·学习·算法
墨染点香1 小时前
LeetCode 刷题【126. 单词接龙 II】
算法·leetcode·职场和发展
aloha_7891 小时前
力扣hot100做题整理91-100
数据结构·算法·leetcode
Tiny番茄2 小时前
31.下一个排列
数据结构·python·算法·leetcode
挂科是不可能出现的2 小时前
最长连续序列
数据结构·c++·算法
mit6.8242 小时前
[Agent可视化] 配置系统 | 实现AI模型切换 | 热重载机制 | fsnotify库(go)
开发语言·人工智能·golang
前端小L2 小时前
动态规划的“数学之魂”:从DP推演到质因数分解——巧解「只有两个键的键盘」
算法·动态规划
Percent_bigdata3 小时前
百分点科技发布中国首个AI原生GEO产品Generforce,助力品牌决胜AI搜索新时代
人工智能·科技·ai-native
Gloria_niki3 小时前
YOLOv4 学习总结
人工智能·计算机视觉·目标跟踪
RTC老炮3 小时前
webrtc弱网-ReceiveSideCongestionController类源码分析及算法原理
网络·算法·webrtc