REOBench:地球观测基础模型的鲁棒性评估

地球观测基础模型(Earth Observation Foundation Models)是一类用于地球观测的预训练模型,其下游应用场景众多,包括城市规划、灾害响应、环境监测等。

地球光学图像容易受天气(云、雾等)和观测设备(设备角度偏移、设备高度变化、设备数据传输等)的影响。当输入的地球光学图像受到影响时,地球观测基础模型能否稳健地工作呢?近期发表的一篇论文1系统性地评估了多种地球观测基础模型在完成多种地球观测任务时,针对受扰动的输入图像的鲁棒性。

REOBench数据集

为了评估地球观测基础模型的鲁棒性,上述论文的作者们汇集了遥感领域的多个数据集,包括:

  • AID------遥感领域的图像场景分类(Scene Classification)基准数据集;
  • ISPRS Potsdam------遥感领域的语义分割基准数据集;
  • DIOR------遥感领域的目标检测基准数据集;
  • VRSBench数据集的部分子集,用于遥感领域的图像字幕(Image Captioning)、视觉问答(Visual Question Answering)和视觉定位(Visual Grounding)任务的评测。

为了模拟实际环境中的干扰,上述论文的作者们基于这些数据集中的图像,使用了十二种图像扰动,并且针对每种扰动,采用了五个扰动强度生成新的图像。

上述的原始图像以及受扰动图像共同构成了REOBench数据集。

十二种图像扰动包括:高斯噪音(Gaussian Noise)、椒盐噪音(Salt Pepper Noise)、高斯模糊(Gaussian Blur)、运动模糊(Motion Blur)、亮度(Brightness)、云(Cloud)、雾(Haze)、数据间隙(Data Gaps)、压缩伪影(Compression Artifacts)、旋转(Rotation)、缩放(Scaling)、以及平移(Translation)。

上图示例了十二种图像扰动1;其中,第一行包括原始图像、以及经过五种不同强度的"运动模糊"扰动后的图像;下面两行是经过十二种扰动后的图像。

评估方法

通过衡量图像扰动所导致的模型性能下降,就能够评估地球观测基础模型的鲁棒性1。性能下降定义为模型在原始图像上的性能与在扰动后图像上性能的差值;较少的性能下降表示模型具有较强的鲁棒性。

上述论文按照以下多个维度对地球观测基础模型的鲁棒性进行了评估:

  • 不同的地球观测基础模型------包括:(1)基于掩码图像建模(Masked Image Modeling)的模型:SATLAS、SatMAE、RVSA、ScaleMAE、以及SatMAE++,(2)基于对比学习(Contrastive Learning)的模型:RemoteCLIP、以及GeoRSCLIP,(3)基于大语言模型(LLM)的模型:GeoChat、LHRS-Bot、RS-LLaVA、VHM、SkySenseGPT、GeoGround、以及Falcon;
  • 六种地球观测任务------包括:图像场景分类(Scene Classification)、语义分割、目标检测、图像字幕(Image Captioning)、视觉问答(Visual Question Answering)、以及视觉定位(Visual Grounding);
  • 上文提及的十二种图像扰动。

评估结果

评估结果显示,现有的地球观测基础模型在面临图像扰动时均出现性能下降。不同的模型架构、模型骨干大小、地球观测任务类型、以及图像扰动类型所对应的性能下降幅度各异,从不到1%到超过20%不等。基于LLM的地球观测基础模型在大多数扰动类型下表现出相对较强的鲁棒性,性能下降的幅度通常低于5%。

局限性及其它

REOBench数据集为地球观测基础模型提供了重要的评估工具,但其仍存在一些局限性,例如:

  • 仅涵盖了高分辨率光学图像,未涵盖多光谱、高光谱和合成孔径雷达(SAR)等其它模态的数据;
  • 涵盖的地球观测任务未包括变化检测(Change Detection)、区域字幕(Region Captioning)、目标计数(Object Counting)等,未来有待进一步扩展任务涵盖范围。

上述论文的代码和数据公开在:github.com/lx709/REOBe...、以及huggingface.co/datasets/xi...

附录:地球观测任务示例

下图为目标检测任务的示例1,其中,上下两行分别为原始图像及其目标检测结果。

下图为语义分割任务的示例1,其中,上下两行分别为原始图像及其语义分割结果。

下图为图像字幕(Image Captioning)任务的示例1,其中,GT代表Ground Truth(真实值)。

下图为视觉问答(Visual Question Answering)任务的示例1,其中,GT代表Ground Truth(真实值)。

参考文献

1 REOBench: Benchmarking Robustness of Earth Observation Foundation Models

arxiv.org/abs/2505.16...

使用许可协议:CC BY

creativecommons.org/licenses/by...

相关推荐
词元Max几秒前
3.1 Agent开发需要懂多少数学?
人工智能·python
FelixBitSoul几秒前
面试必考!RAG 知识库全链路深度解析:父子分块 × Rerank × 查询重写 × 标准化改写
人工智能·langchain·aigc
浮生望1 分钟前
双指针算法面试通关指南:从入门到精通
算法
ZHW_AI课题组1 分钟前
使用 Rectified Flow 和 Diffusion Transformer实现 MNIST 手写数字图像生成
人工智能·python·机器学习
z202305083 分钟前
RDMA之DCQCN (14)
linux·服务器·网络·人工智能·ai
SimpleLearingAI4 分钟前
PyTorch & Numpy 实现线性回归详解
人工智能·算法·多模态大模型
papership5 分钟前
【入门级-数据结构-1、线性结构:链 表(单链表、双向链表、循环链表 )】
数据结构·算法·链表
董董灿是个攻城狮5 分钟前
AI 会吃了天涯吗?
人工智能
天风之翼5 分钟前
AI 模型部署从入门到生产 —— ONNX 转换、TensorRT 加速、推理服务搭建
人工智能
A15362555 分钟前
从 AI 零引用到高转化:GEO 落地价值解析
人工智能