Pitts250K
按照https://blog.csdn.net/qq_39743953/article/details/130515312 博客提供的原作者官方链接,Pittsburgh250k 的获取方式如下。
完整下载步骤
1. 创建目录并开始下载
# 创建数据目录
mkdir -p ~/datasets/pittsburgh250k
cd ~/datasets/pittsburgh250k
# 下载数据库图像分卷(共 11 个 .tar)
for i in $(seq -w 0 10); do
wget https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/0${i}.tar
done
# 下载查询图像
wget https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/queries_real.tar
# 下载数据集划分规范(.mat 标签文件)
wget https://www.di.ens.fr/willow/research/netvlad/data/netvlad_v100_datasets.tar.gz
使用wget巨慢
# 创建数据目录
mkdir -p ~/datasets/pittsburgh250k
cd ~/datasets/pittsburgh250k
# 下载 000.tar ~ 010.tar,共 11 个文件;并行 2 个任务,每个任务 16 连接,支持断点续传与自动重试
seq -w 0 10 | xargs -I{} -P 2 bash -c '
url="https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/0{}.tar"
echo "[START] $url"
aria2c -c \
-x 16 -s 16 -k 1M \
--max-tries=0 --retry-wait=5 --timeout=60 \
--summary-interval=10 \
"$url"
'
# 下载查询图像
aria2c -c \
-x 16 -s 16 -k 1M \
--max-tries=0 --retry-wait=5 --timeout=60 \
--summary-interval=10 \
"https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/queries_real.tar"
# 下载数据集划分规范(.mat 标签文件)
url="https://www.di.ens.fr/willow/research/netvlad/data/{}"
echo "[START] $url"
aria2c -c \
-x 16 -s 16 -k 1M \
--max-tries=0 --retry-wait=5 --timeout=60 \
--summary-interval=10 \
"$url"
'
注意 :数据库图像是
000.tar~010.tar,不是00~04和05~10。上面的seq -w 0 10会生成0001...10,但文件名是000.tar~010.tar。如果你的seq行为不同,建议手动写循环。
更稳妥的写法(避免 seq 格式问题):
cd ~/datasets/pittsburgh250k
# 逐个下载 11 个 database tar
for num in 000 001 002 003 004 005 006 007 008 009 010; do
wget "https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/${num}.tar"
done
# 下载查询图
wget https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/queries_real.tar
# 下载 .mat 划分文件
wget https://www.di.ens.fr/willow/research/netvlad/data/netvlad_v100_datasets.tar.gz
2. MD5 校验(确保下载完整)
# 创建校验文件
cat > md5sum.txt << 'EOF'
3edec2fac461f4a740a21d509ad6e30e 000.tar
c97e5fffd53a2387f1f57b3ec3cae5cb 001.tar
afab887a76f8c4b5c017bd51ea105f5c 002.tar
f217320114299249ea6ebbd71eeb76de 003.tar
00ae08d9020b953c4e1125da5054577c 004.tar
be3fd968f96ebf2548adec23e94a8eb8 005.tar
89818a0841ec98a7b017ded678372652 006.tar
16cbd960c37715e73166d1c1361e337b 007.tar
589ce95e50038dccd012e4fc429bd3e3 008.tar
3f9de2504fddf140f17c6c8b4315a09e 009.tar
5175571cf6f0061aced10fb65e0c9691 010.tar
5611c4d601c92f6c7dd702fc2716914a queries_real.tar
EOF
# 执行校验
md5sum -c md5sum.txt
如果某一项显示 FAILED,就单独重新下载那个文件。
3. 解压
# 解压所有 database tar(会释放到当前目录,约 25 万张图)
for num in 000 001 002 003 004 005 006 007 008 009 010; do
tar -xf ${num}.tar
done
# 解压查询图像
tar -xf queries_real.tar
# 解压 .mat 标签文件
tar -xzf netvlad_v100_datasets.tar.gz
4. 重要说明
| 问题 | 解答 |
|---|---|
| 全部都要下吗? | 是的。 000.tar ~ 010.tar 是数据库图(约 25 万张),queries_real.tar 是查询图(约 2.4 万张),两者缺一不可。 |
| .mat 文件是干嘛的? | netvlad_v100_datasets.tar.gz 解压后包含 pitts250k_train.mat、pitts250k_val.mat、pitts250k_test.mat,它们定义了哪些图属于 train/val/test。没有这些,你无法从 25 万张里分出 test set。 |
| Pittsburgh 30k 在哪? | 没有单独包。 博客明确说了:"This is a subset of Pittsburgh 250k... download Pittsburgh 250k and the dataset specifications contain the information on which images form Pittsburgh 30k." 下载完 250k 后,用 .mat 文件里的索引提取即可。 |
| 大概多大? | 11 个 database tar 每个约 3-4GB,总计约 35-40GB ;queries_real.tar 约 1-2GB;解压后更大。确保磁盘空间充足。 |
一句话总结
全部下载 11 个
000.tar~010.tar+queries_real.tar+netvlad_v100_datasets.tar.gz,校验 md5,逐个解压,最后用.mat文件划分 train/val/test。 这就是原作者提供的官方完整流程。
Nordland
https://adelaideuniversity.app.box.com/s/zkfk1akpbo5318fzqmtvlpp7030ex4up
使用上方网站下载,下方是huggingface网站地址,很奇怪使用huggingface的方式我下不下来。
https://huggingface.co/datasets/Somayeh-h/Nordland
还有一种方式是VPR-datasets-downloader中写的,但是下载很慢
rsync -rhz --info=progress2 --ignore-existing rsync://vandaldata.polito.it/sf_xl/VPR-datasets-downloader/nordland .