🌐 AWS 公开数据集下载与操作说明(以 SpaceNet 为例)
一、前置条件
在开始前,请确保已安装并配置好 AWS CLI 工具。
1. 安装 AWS CLI
可从官网下载安装:
👉 https://awscli.amazonaws.com/AWSCLIV2.msi
安装后通过以下命令验证:
powershell
aws --version
2. 本项目使用 无需认证 的公开数据,因此可以使用匿名访问:
powershell
--no-sign-request
二、SpaceNet 数据集介绍
SpaceNet 是 AWS 上托管的高分辨率遥感数据集,包含卫星影像(RGB、多光谱)、建筑物矢量标签、掩膜标签等,适用于目标识别、图像分割、场景分类等任务。
例如:AOI_2_Vegas
表示拉斯维加斯地区的影像与标注。
三、浏览远程数据目录结构
1. 查看数据列表
aws s3 --no-sign-request ls s3://spacenet-dataset/ --request-payer requester

# 根目录说明(s3://spacenet-dataset/)
AOIs/ # SpaceNet 核心数据集的各个 AOI(Area of Interest)区域数据,如 Vegas、Paris 等;
# 包含多光谱、全色锐化影像(PS-RGB, PS-MS)、建筑物标签(GeoJSON)、掩膜标签等
Hosted-Datasets/ # SpaceNet 之外托管的其他遥感公开数据集,如 xView、DeepGlobe 等第三方数据(AWS 作为托管方)
SpaceNet_Off-Nadir_Dataset/ # SpaceNet 提供的"偏视角"数据集(Off-Nadir),包括不同倾角(7.5° 到 54°)拍摄的影像及标签;
# 适合研究视角变化对识别精度的影响等问题
spacenet-model-weights/ # 官方训练好的模型权重(如 UNet、Mask R-CNN 等),用于快速实验和模型加载验证
spacenet-stac/ # SpaceNet 数据的 STAC(SpatioTemporal Asset Catalog)索引目录;
# 提供标准化的 JSON 描述,便于程序化检索与集成,适用于自动化系统或云平台分析
spacenet/ # SpaceNet 比较早期版本的原始数据,结构略不同;
# 可视为 Legacy 数据集,不推荐作为首选,除非用于比对或历史研究
LICENSE.md # 数据集使用许可说明,通常是 CC-BY(署名共享),下载和使用前建议查看许可内容
2. 列出 AOI 目录下的所有文件夹
powershell
aws s3 --no-sign-request ls s3://spacenet-dataset/AOIs/ --request-payer requester

# SpaceNet AOI 列表说明(每个目录代表一个城市或区域的遥感数据)
AOI_1_Rio/ # 巴西里约热内卢区域的高分辨率卫星影像与建筑物标注数据
AOI_2_Vegas/ # 美国拉斯维加斯区域,包含多光谱影像和建筑物标签,常用作基准数据集
AOI_3_Paris/ # 法国巴黎区域的遥感影像和建筑物标注,适合城市建筑识别任务
AOI_4_Shanghai/ # 中国上海区域的高分辨率卫星影像,适合大城市建筑物提取与变化检测
AOI_5_Khartoum/ # 苏丹喀土穆区域数据,涵盖不同气候与地理环境的遥感影像
AOI_6_Atlanta/ # 美国亚特兰大区域,适合城市道路和建筑识别研究
AOI_7_Moscow/ # 俄罗斯莫斯科区域的卫星影像,适合复杂城市场景分析
AOI_8_Mumbai/ # 印度孟买区域,具有高人口密度城市的遥感数据
AOI_9_San_Juan/ # 波多黎各圣胡安区域,适合岛屿和城市混合场景研究
AOI_10_Dar_Es_Salaam/ # 坦桑尼亚达累斯萨拉姆区域,城市与自然环境混合
AOI_11_Rotterdam/ # 荷兰鹿特丹区域,包含复杂水陆混合的城市影像数据
3. 查看某一 AOI 的内容(例如 AOI_2_Vegas):
powershell
aws s3 --no-sign-request ls s3://spacenet-dataset/AOIs/AOI_2_Vegas/ --request-payer requester

常见子目录包括:
PS-RGB/
:全色锐化 RGB 影像(.tif)geojson_buildings/
:建筑物标签(.geojson)raster_labels/
:掩膜标签(.tif)metadata/
:数据说明与参数信息(.json、.csv)
四、下载数据
使用 sync
命令可以将 S3 上的指定目录与本地文件夹同步:
示例:下载 RGB 影像
powershell
aws s3 --no-sign-request sync s3://spacenet-dataset/AOIs/AOI_2_Vegas/PS-RGB/ ./spacenet2_vegas/PS-RGB/ --request-payer requester
示例:下载建筑物矢量标签
powershell
aws s3 --no-sign-request sync s3://spacenet-dataset/AOIs/AOI_2_Vegas/geojson_buildings/ ./spacenet2_vegas/geojson_buildings/ --request-payer requester
示例:下载掩膜标签
powershell
aws s3 --no-sign-request sync s3://spacenet-dataset/AOIs/AOI_2_Vegas/raster_labels/ ./spacenet2_vegas/raster_labels/ --request-payer requester
五、参数说明
参数 | 说明 |
---|---|
--no-sign-request |
使用匿名访问,适用于无需授权的公开数据集 |
--request-payer requester |
指定下载方承担 S3 流量费用(公开数据集通常需要) |
sync |
增量同步文件夹,仅下载本地不存在或已更新的文件 |
ls |
查看远程 S3 桶目录结构 |
六、常见问题与解决方法
问题 1:执行 sync
后没有下载任何文件?
可能原因:
- 路径错误(如遗漏
AOIs/
前缀) - 本地已有文件,
sync
判断无需更新 - 网络或代理限制访问 AWS S3
解决办法:
-
确认远程路径拼写正确
-
添加
--dryrun
参数测试将会下载哪些文件:powershellaws s3 --no-sign-request sync s3://... ./local_path/ --request-payer requester --dryrun
-
使用
--debug
参数排查详细过程 -
切换网络或使用 VPN 测试是否为网络限制
七、附录:示例本地目录结构
spacenet2_vegas/
├── PS-RGB/ # 卫星影像(.tif)
├── geojson_buildings/ # 建筑物标签(.geojson)
├── raster_labels/ # 掩膜标签(.tif)