VPR：Pitts50K和Norland数据集下载

Pitts250K

按照https://blog.csdn.net/qq_39743953/article/details/130515312 博客提供的原作者官方链接，Pittsburgh250k 的获取方式如下。

完整下载步骤

1. 创建目录并开始下载

复制代码

# 创建数据目录
mkdir -p ~/datasets/pittsburgh250k
cd ~/datasets/pittsburgh250k

# 下载数据库图像分卷（共 11 个 .tar）
for i in $(seq -w 0 10); do
  wget https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/0${i}.tar
done

# 下载查询图像
wget https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/queries_real.tar

# 下载数据集划分规范（.mat 标签文件）
wget https://www.di.ens.fr/willow/research/netvlad/data/netvlad_v100_datasets.tar.gz

使用wget巨慢

复制代码

# 创建数据目录
mkdir -p ~/datasets/pittsburgh250k
cd ~/datasets/pittsburgh250k

# 下载 000.tar ~ 010.tar，共 11 个文件；并行 2 个任务，每个任务 16 连接，支持断点续传与自动重试
seq -w 0 10 | xargs -I{} -P 2 bash -c '
url="https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/0{}.tar"
echo "[START] $url"
aria2c -c \
  -x 16 -s 16 -k 1M \
  --max-tries=0 --retry-wait=5 --timeout=60 \
  --summary-interval=10 \
  "$url"
'

# 下载查询图像
aria2c -c \
  -x 16 -s 16 -k 1M \
  --max-tries=0 --retry-wait=5 --timeout=60 \
  --summary-interval=10 \
  "https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/queries_real.tar"

# 下载数据集划分规范（.mat 标签文件）
url="https://www.di.ens.fr/willow/research/netvlad/data/{}"
echo "[START] $url"
aria2c -c \
  -x 16 -s 16 -k 1M \
  --max-tries=0 --retry-wait=5 --timeout=60 \
  --summary-interval=10 \
  "$url"
'

注意：数据库图像是 000.tar ~ 010.tar，不是 00 ~ 04 和 05 ~ 10。上面的 seq -w 0 10 会生成 00 01 ... 10，但文件名是 000.tar ~ 010.tar。如果你的 seq 行为不同，建议手动写循环。

更稳妥的写法（避免 seq 格式问题）：

复制代码

cd ~/datasets/pittsburgh250k

# 逐个下载 11 个 database tar
for num in 000 001 002 003 004 005 006 007 008 009 010; do
  wget "https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/${num}.tar"
done

# 下载查询图
wget https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/queries_real.tar

# 下载 .mat 划分文件
wget https://www.di.ens.fr/willow/research/netvlad/data/netvlad_v100_datasets.tar.gz

2. MD5 校验（确保下载完整）

复制代码

# 创建校验文件
cat > md5sum.txt << 'EOF'
3edec2fac461f4a740a21d509ad6e30e  000.tar
c97e5fffd53a2387f1f57b3ec3cae5cb  001.tar
afab887a76f8c4b5c017bd51ea105f5c  002.tar
f217320114299249ea6ebbd71eeb76de  003.tar
00ae08d9020b953c4e1125da5054577c  004.tar
be3fd968f96ebf2548adec23e94a8eb8  005.tar
89818a0841ec98a7b017ded678372652  006.tar
16cbd960c37715e73166d1c1361e337b  007.tar
589ce95e50038dccd012e4fc429bd3e3  008.tar
3f9de2504fddf140f17c6c8b4315a09e  009.tar
5175571cf6f0061aced10fb65e0c9691  010.tar
5611c4d601c92f6c7dd702fc2716914a  queries_real.tar
EOF

# 执行校验
md5sum -c md5sum.txt

如果某一项显示 FAILED，就单独重新下载那个文件。

3. 解压

复制代码

# 解压所有 database tar（会释放到当前目录，约 25 万张图）
for num in 000 001 002 003 004 005 006 007 008 009 010; do
  tar -xf ${num}.tar
done

# 解压查询图像
tar -xf queries_real.tar

# 解压 .mat 标签文件
tar -xzf netvlad_v100_datasets.tar.gz

4. 重要说明

问题	解答
全部都要下吗？	是的。 `000.tar` ~ `010.tar` 是数据库图（约 25 万张），`queries_real.tar` 是查询图（约 2.4 万张），两者缺一不可。
.mat 文件是干嘛的？	`netvlad_v100_datasets.tar.gz` 解压后包含 `pitts250k_train.mat`、`pitts250k_val.mat`、`pitts250k_test.mat`，它们定义了哪些图属于 train/val/test。没有这些，你无法从 25 万张里分出 test set。
Pittsburgh 30k 在哪？	没有单独包。博客明确说了："This is a subset of Pittsburgh 250k... download Pittsburgh 250k and the dataset specifications contain the information on which images form Pittsburgh 30k." 下载完 250k 后，用 `.mat` 文件里的索引提取即可。
大概多大？	11 个 database tar 每个约 3-4GB，总计约 35-40GB ；queries_real.tar 约 1-2GB；解压后更大。确保磁盘空间充足。

一句话总结

全部下载 11 个 000.tar~010.tar + queries_real.tar + netvlad_v100_datasets.tar.gz，校验 md5，逐个解压，最后用 .mat 文件划分 train/val/test。 这就是原作者提供的官方完整流程。

Nordland

复制代码

https://adelaideuniversity.app.box.com/s/zkfk1akpbo5318fzqmtvlpp7030ex4up

使用上方网站下载，下方是huggingface网站地址，很奇怪使用huggingface的方式我下不下来。

复制代码

https://huggingface.co/datasets/Somayeh-h/Nordland

还有一种方式是VPR-datasets-downloader中写的，但是下载很慢

复制代码

rsync -rhz --info=progress2 --ignore-existing rsync://vandaldata.polito.it/sf_xl/VPR-datasets-downloader/nordland .