Remote Sensing 29个SITS基准数据集综述:多模态遥感分类的新起点

卫星遥感影像时间序列分类(Satellite Image Time Series Classification, SITS Classification)是地表覆盖制图、农业监测和变化检测中的关键任务。但长期以来,相关基准数据集分布零散、标准不一,导致研究者在数据集选择、模型对比和结果复现时面临困难。

这篇综述系统梳理了 2017---2025 年间 29 个公开 SITS 分类基准数据集,并从光谱、时间、空间和类别等维度进行统计分析,为后续研究提供了一份较完整的数据集选择指南。

我花了两周时间,把近五年遥感图像分割领域引用最高、以及今年顶会上最让我有触动的论文,全部精读了一遍。最后筛选出这22篇------它们串起了从经典编码-解码结构到视觉大模型遥感适配的完整逻辑线,80%的灵感突破都藏在这几篇的缝隙里。不想让大家再踩我踩过的文献坑,于是我做了这份带笔记的精读合集,一次性给你。

关注公-众-号"遥感AI科研 ",后台回复"B482",免费获取


1. 三句话看懂核心结论

数据集发展趋势:SITS 数据集正从单传感器、小规模样本,转向多模态、全球尺度和大规模基准。

当前主要瓶颈:不规则采样、云遮挡和标签体系不统一,仍然限制模型泛化能力和结果可比性。

未来重点方向:多源数据融合、生成式去云、自监督遥感大模型将成为 SITS 分类的重要研究范式。

2. 29 个基准数据集概览

本文筛选的数据集均满足三个条件:完全公开、带分类标签、具有完整文档 。这些数据集覆盖从 0.2 m 亚米级到 1 km 分辨率的多种空间尺度,最长时间跨度可达 30 年。

2.1 单传感器数据集:Sentinel-2 最主流

Sentinel-2 由于具备 10 m 空间分辨率5 天重访周期,成为 SITS 分类中最常用的数据源。综述中有 12 个数据集完全基于 Sentinel-2 构建,例如:

  • BreizhCrops:法国布列塔尼农业作物分类数据集

  • EUROCROPS:覆盖 16 个欧盟国家的大规模作物数据集

  • TimeSen2Crop:奥地利农作物时间序列数据集

  • LandCoverNet:覆盖六大洲的全球土地覆盖数据集

  • 3DFGC:中国山东安丘区域的精细作物分类数据集

此外,还有基于 Planet、Landsat 等传感器的数据集。例如 DynamicEarthNet 使用 Planet 影像,提供每日 3 m 分辨率数据;Landsat 系列则支持长期土地覆盖变化分析。

2.2 多传感器数据集:光学 + SAR 成主流组合

为缓解光学影像受云遮挡影响的问题,越来越多数据集开始融合多源遥感数据。其中,Sentinel-2 光学影像 + Sentinel-1 SAR 数据是目前最成熟的组合。

代表性数据集包括:

  • PASTIS-R:在 PASTIS 基础上加入 Sentinel-1 时序数据

  • SEN12TS:覆盖全球 6 个区域的 Sentinel-1/2 配对数据集

  • H2Crop:融合 Sentinel-2 与 EnMAP 高光谱数据,支持大规模精细作物分类

3. 数据集特征对比:选数据集主要看四点

论文从 时间、空间、光谱和类别标签四个维度对 29 个数据集进行了统计。对研究者而言,这些维度也是选择数据集时最关键的参考标准。

3.1 时间特征:不规则采样普遍存在

SITS 数据的核心优势在于时间维度,但现实中约 90% 的数据集都存在不同程度的不规则采样问题。造成这一现象的主要原因包括云遮挡、卫星重访周期差异和数据质量筛选。

常见处理方式包括:

  1. 云掩膜与质量控制

  2. 月度或季度合成

  3. 时间插值补全

  4. 使用支持掩码输入的时序模型

3.2 空间特征:10 m 分辨率成为主流

在空间分辨率方面,10 m 是当前 SITS 分类数据集的主流配置,共有 16 个数据集采用这一尺度,占比约 55%。最高分辨率数据集为 TreeSatAI,使用 0.2 m 航空影像。

不过,数据集的地理分布仍不均衡:约 60% 集中在欧洲温带农业区,而热带地区、非洲、东南亚等区域明显不足。

3.3 类别标签:像素级标注占主导

在标注粒度上,像素级分类仍是主流:

  • 像素级标签:23 个

  • 地块级标签:4 个

  • 混合标签:2 个

从分类层级看,作物种类等细粒度类别最常见。其中 EUROCROPS 最多可包含 331 个细分类别。需要注意的是,绝大多数数据集只提供年度标签,仅少数数据集如 DynamicEarthNet 支持更高频率的月度标签。

4. SITS 分类算法演进

这些基准数据集也推动了 SITS 分类算法的发展。目前主流方法大致可以分为三类。

4.1 纯时间建模方法

早期方法主要关注单像素或地块的时间序列特征,代表模型包括:

  • 1D CNN

  • LSTM / GRU

  • Temporal Attention Encoder, TAE

  • Lightweight Temporal Attention Encoder, LTAE

这类方法适合地块级分类或单像素时序分析,优点是结构相对简单,但空间上下文建模能力有限。

4.2 时空分离建模方法

当前较常见的方案是先用 CNN 或 U-Net 提取单时相空间特征,再使用 RNN 或 Transformer 建模时间变化,最后进行融合分类。

代表模型包括:

  • U-Net + ConvLSTM

  • PSE + TAE

  • CNN + Transformer

这种方法兼顾效率和性能,适合处理可变长度时序数据。

4.3 联合时空建模方法

更前沿的方法尝试同时学习空间和时间特征,例如:

  • 3D CNN

  • ConvRNN

  • 3D U-Net

  • TransUNet

  • UNETR

  • 时空 Transformer

此外,自监督遥感大模型也正在兴起,例如 PrithviSatMAE 等。这类方法可利用大规模无标注遥感数据进行预训练,再在下游 SITS 分类任务中微调。

针对不规则时序问题,现有解决方案可概括为:

  1. 预处理法:云掩膜、插值、时间合成

  2. 模型法:时间感知 LSTM、掩码注意力 Transformer

  3. 多源融合:利用 SAR 数据弥补光学影像缺失

5. 文章亮点与研究价值

这篇综述的价值不仅在于罗列数据集,更在于建立了一套系统化对比框架。

首先,它从数据特征出发,帮助研究者理解不同数据集适合哪些任务。例如,农业作物分类更依赖高时间分辨率,而城市扩张监测则更看重空间分辨率和长期覆盖。

其次,它指出了当前基准数据与真实应用之间的差距。很多数据集在区域、气候带和标签频率上存在偏差,导致模型在真实复杂场景中的泛化能力仍有待验证。

最后,它提供了一张清晰的"研究空白地图":哪些区域缺少数据,哪些模态尚未充分融合,哪些任务仍缺乏标准化评测。

6. 挑战与未来方向

当前 SITS 分类基准数据集仍面临三类核心挑战:

时间维度缺口:只有少部分数据集具备规则采样,插值可能损失关键物候信息。

云遮挡问题突出:许多数据集缺乏可靠的像素级云掩膜。

标签频率偏低:大多数数据集只提供年度标签,难以支持年内动态变化分析。

未来值得关注的方向包括:

多模态融合:整合光学、SAR、高光谱、LiDAR 等多源数据。

生成式去云:利用扩散模型或 GAN 实现云区影像重建。

高时空分辨率数据集:构建亚米级、近每日重访的开放基准。

自监督基础模型:基于大规模无标注 SITS 数据训练通用表征模型。

动态变化建模:从静态分类转向地表变化轨迹分析。

7. 总结

总体来看,这篇综述系统整合了 SITS 分类领域分散的数据集资源,为研究者提供了清晰的数据集选择和方法对比依据。它的意义不只是"列清单",而是帮助领域建立更统一的评测视角。

对于从事遥感图像分类、农业监测、土地覆盖制图和变化检测的研究者而言,这篇文章可以作为进入 SITS 分类领域的重要参考。虽然论文没有提供新的开源代码,但其数据集整理框架和问题总结本身已经具有较高实用价值。

相关推荐
m0_466525291 小时前
锚定场景深耕数据 东软探索城市全域数字化新路径
大数据·人工智能
Data-Miner1 小时前
智慧城市数据中台建设方案深度解析PPT解读
人工智能·智慧城市
喵了几个咪1 小时前
AI重构软件开发范式:框架与脚手架为何仍是生产级开发的刚需?
vue.js·人工智能·react.js·重构·golang·ai编程
星辰AI1 小时前
告别翻译腔:用 AI Agent 自动化构建开源项目的多语言技术文档
人工智能·ai·语言模型
KJ_BioMed1 小时前
突破“不可成药”靶点:科晶生物AI互作蛋白与纳米抗体设计技术解析
人工智能·抗体药物·多肽药物·多肽设计·抗体设计
想你依然心痛2 小时前
HarmonyOS 6(API 23)实战:基于悬浮导航、沉浸光感与HMAF的“药界智脑“——PC端AI智能体沉浸式药物研发与分子模拟工作台
人工智能·华为·ar·harmonyos·智能体
CodePlayer竟然被占用了2 小时前
当编排逻辑从上下文窗口搬到脚本:Claude Code Dynamic Workflows 深度拆解
人工智能
AI视觉网奇2 小时前
3d 标注工具
人工智能·3d
莫逸风2 小时前
【AgentScope】HarnessAgent 学习指南
大数据·人工智能