REOBench：地球观测基础模型的鲁棒性评估

地球观测基础模型（Earth Observation Foundation Models）是一类用于地球观测的预训练模型，其下游应用场景众多，包括城市规划、灾害响应、环境监测等。

地球光学图像容易受天气（云、雾等）和观测设备（设备角度偏移、设备高度变化、设备数据传输等）的影响。当输入的地球光学图像受到影响时，地球观测基础模型能否稳健地工作呢？近期发表的一篇论文 $1$ 系统性地评估了多种地球观测基础模型在完成多种地球观测任务时，针对受扰动的输入图像的鲁棒性。

REOBench数据集

为了评估地球观测基础模型的鲁棒性，上述论文的作者们汇集了遥感领域的多个数据集，包括：

AID------遥感领域的图像场景分类（Scene Classification）基准数据集；
ISPRS Potsdam------遥感领域的语义分割基准数据集；
DIOR------遥感领域的目标检测基准数据集；
VRSBench数据集的部分子集，用于遥感领域的图像字幕（Image Captioning）、视觉问答（Visual Question Answering）和视觉定位（Visual Grounding）任务的评测。

为了模拟实际环境中的干扰，上述论文的作者们基于这些数据集中的图像，使用了十二种图像扰动，并且针对每种扰动，采用了五个扰动强度生成新的图像。

上述的原始图像以及受扰动图像共同构成了REOBench数据集。

十二种图像扰动包括：高斯噪音（Gaussian Noise）、椒盐噪音（Salt Pepper Noise）、高斯模糊（Gaussian Blur）、运动模糊（Motion Blur）、亮度（Brightness）、云（Cloud）、雾（Haze）、数据间隙（Data Gaps）、压缩伪影（Compression Artifacts）、旋转（Rotation）、缩放（Scaling）、以及平移（Translation）。

上图示例了十二种图像扰动 $1$ ；其中，第一行包括原始图像、以及经过五种不同强度的"运动模糊"扰动后的图像；下面两行是经过十二种扰动后的图像。

评估方法

通过衡量图像扰动所导致的模型性能下降，就能够评估地球观测基础模型的鲁棒性 $1$ 。性能下降定义为模型在原始图像上的性能与在扰动后图像上性能的差值；较少的性能下降表示模型具有较强的鲁棒性。

上述论文按照以下多个维度对地球观测基础模型的鲁棒性进行了评估：

不同的地球观测基础模型------包括：（1）基于掩码图像建模（Masked Image Modeling）的模型：SATLAS、SatMAE、RVSA、ScaleMAE、以及SatMAE++，（2）基于对比学习（Contrastive Learning）的模型：RemoteCLIP、以及GeoRSCLIP，（3）基于大语言模型（LLM）的模型：GeoChat、LHRS-Bot、RS-LLaVA、VHM、SkySenseGPT、GeoGround、以及Falcon；
六种地球观测任务------包括：图像场景分类（Scene Classification）、语义分割、目标检测、图像字幕（Image Captioning）、视觉问答（Visual Question Answering）、以及视觉定位（Visual Grounding）；
上文提及的十二种图像扰动。