REOBench:地球观测基础模型的鲁棒性评估

地球观测基础模型(Earth Observation Foundation Models)是一类用于地球观测的预训练模型,其下游应用场景众多,包括城市规划、灾害响应、环境监测等。

地球光学图像容易受天气(云、雾等)和观测设备(设备角度偏移、设备高度变化、设备数据传输等)的影响。当输入的地球光学图像受到影响时,地球观测基础模型能否稳健地工作呢?近期发表的一篇论文[1]系统性地评估了多种地球观测基础模型在完成多种地球观测任务时,针对受扰动的输入图像的鲁棒性。

REOBench数据集

为了评估地球观测基础模型的鲁棒性,上述论文的作者们汇集了遥感领域的多个数据集,包括:

  • AID------遥感领域的图像场景分类(Scene Classification)基准数据集;
  • ISPRS Potsdam------遥感领域的语义分割基准数据集;
  • DIOR------遥感领域的目标检测基准数据集;
  • VRSBench数据集的部分子集,用于遥感领域的图像字幕(Image Captioning)、视觉问答(Visual Question Answering)和视觉定位(Visual Grounding)任务的评测。

为了模拟实际环境中的干扰,上述论文的作者们基于这些数据集中的图像,使用了十二种图像扰动,并且针对每种扰动,采用了五个扰动强度生成新的图像。

上述的原始图像以及受扰动图像共同构成了REOBench数据集。

十二种图像扰动包括:高斯噪音(Gaussian Noise)、椒盐噪音(Salt Pepper Noise)、高斯模糊(Gaussian Blur)、运动模糊(Motion Blur)、亮度(Brightness)、云(Cloud)、雾(Haze)、数据间隙(Data Gaps)、压缩伪影(Compression Artifacts)、旋转(Rotation)、缩放(Scaling)、以及平移(Translation)。

上图示例了十二种图像扰动[1];其中,第一行包括原始图像、以及经过五种不同强度的"运动模糊"扰动后的图像;下面两行是经过十二种扰动后的图像。

评估方法

通过衡量图像扰动所导致的模型性能下降,就能够评估地球观测基础模型的鲁棒性[1]。性能下降定义为模型在原始图像上的性能与在扰动后图像上性能的差值;较少的性能下降表示模型具有较强的鲁棒性。

上述论文按照以下多个维度对地球观测基础模型的鲁棒性进行了评估:

  • 不同的地球观测基础模型------包括:(1)基于掩码图像建模(Masked Image Modeling)的模型:SATLAS、SatMAE、RVSA、ScaleMAE、以及SatMAE++,(2)基于对比学习(Contrastive Learning)的模型:RemoteCLIP、以及GeoRSCLIP,(3)基于大语言模型(LLM)的模型:GeoChat、LHRS-Bot、RS-LLaVA、VHM、SkySenseGPT、GeoGround、以及Falcon;
  • 六种地球观测任务------包括:图像场景分类(Scene Classification)、语义分割、目标检测、图像字幕(Image Captioning)、视觉问答(Visual Question Answering)、以及视觉定位(Visual Grounding);
  • 上文提及的十二种图像扰动。

评估结果

评估结果显示,现有的地球观测基础模型在面临图像扰动时均出现性能下降。不同的模型架构、模型骨干大小、地球观测任务类型、以及图像扰动类型所对应的性能下降幅度各异,从不到1%到超过20%不等。基于LLM的地球观测基础模型在大多数扰动类型下表现出相对较强的鲁棒性,性能下降的幅度通常低于5%。

局限性及其它

REOBench数据集为地球观测基础模型提供了重要的评估工具,但其仍存在一些局限性,例如:

  • 仅涵盖了高分辨率光学图像,未涵盖多光谱、高光谱和合成孔径雷达(SAR)等其它模态的数据;
  • 涵盖的地球观测任务未包括变化检测(Change Detection)、区域字幕(Region Captioning)、目标计数(Object Counting)等,未来有待进一步扩展任务涵盖范围。

上述论文的代码和数据公开在:github.com/lx709/REOBe...、以及huggingface.co/datasets/xi...

附录:地球观测任务示例

下图为目标检测任务的示例[1],其中,上下两行分别为原始图像及其目标检测结果。

下图为语义分割任务的示例[1],其中,上下两行分别为原始图像及其语义分割结果。

下图为图像字幕(Image Captioning)任务的示例[1],其中,GT代表Ground Truth(真实值)。

下图为视觉问答(Visual Question Answering)任务的示例[1],其中,GT代表Ground Truth(真实值)。

参考文献

1\] REOBench: Benchmarking Robustness of Earth Observation Foundation Models [arxiv.org/abs/2505.16...](https://link.juejin.cn?target=https%3A%2F%2Farxiv.org%2Fabs%2F2505.16793 "https://arxiv.org/abs/2505.16793") 使用许可协议:CC BY [creativecommons.org/licenses/by...](https://link.juejin.cn?target=https%3A%2F%2Fcreativecommons.org%2Flicenses%2Fby%2F4.0%2F "https://creativecommons.org/licenses/by/4.0/")

相关推荐
hie9889410 分钟前
MATLAB锂离子电池伪二维(P2D)模型实现
人工智能·算法·matlab
晨同学032712 分钟前
opencv的颜色通道问题 & rgb & bgr
人工智能·opencv·计算机视觉
杰克尼20 分钟前
BM5 合并k个已排序的链表
数据结构·算法·链表
蓝婷儿23 分钟前
Python 机器学习核心入门与实战进阶 Day 3 - 决策树 & 随机森林模型实战
人工智能·python·机器学习
大千AI助手25 分钟前
PageRank:互联网的马尔可夫链平衡态
人工智能·机器学习·贝叶斯·mc·pagerank·条件概率·马尔科夫链
小和尚同志1 小时前
Cline | Cline + Grok3 免费 AI 编程新体验
人工智能·aigc
我就是全世界1 小时前
TensorRT-LLM:大模型推理加速的核心技术与实践优势
人工智能·机器学习·性能优化·大模型·tensorrt-llm
.30-06Springfield1 小时前
决策树(Decision tree)算法详解(ID3、C4.5、CART)
人工智能·python·算法·决策树·机器学习
我不是哆啦A梦1 小时前
破解风电运维“百模大战”困局,机械版ChatGPT诞生?
运维·人工智能·python·算法·chatgpt
xiaolang_8616_wjl1 小时前
c++文字游戏_闯关打怪
开发语言·数据结构·c++·算法·c++20