VPR:Pitts50K和Norland数据集下载

Pitts250K

按照https://blog.csdn.net/qq_39743953/article/details/130515312 博客提供的原作者官方链接,Pittsburgh250k 的获取方式如下。


完整下载步骤

1. 创建目录并开始下载

复制代码
# 创建数据目录
mkdir -p ~/datasets/pittsburgh250k
cd ~/datasets/pittsburgh250k
​
# 下载数据库图像分卷(共 11 个 .tar)
for i in $(seq -w 0 10); do
  wget https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/0${i}.tar
done
​
# 下载查询图像
wget https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/queries_real.tar
​
# 下载数据集划分规范(.mat 标签文件)
wget https://www.di.ens.fr/willow/research/netvlad/data/netvlad_v100_datasets.tar.gz

使用wget巨慢

复制代码
# 创建数据目录
mkdir -p ~/datasets/pittsburgh250k
cd ~/datasets/pittsburgh250k
​
# 下载 000.tar ~ 010.tar,共 11 个文件;并行 2 个任务,每个任务 16 连接,支持断点续传与自动重试
seq -w 0 10 | xargs -I{} -P 2 bash -c '
url="https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/0{}.tar"
echo "[START] $url"
aria2c -c \
  -x 16 -s 16 -k 1M \
  --max-tries=0 --retry-wait=5 --timeout=60 \
  --summary-interval=10 \
  "$url"
'
​
# 下载查询图像
aria2c -c \
  -x 16 -s 16 -k 1M \
  --max-tries=0 --retry-wait=5 --timeout=60 \
  --summary-interval=10 \
  "https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/queries_real.tar"
​
# 下载数据集划分规范(.mat 标签文件)
url="https://www.di.ens.fr/willow/research/netvlad/data/{}"
echo "[START] $url"
aria2c -c \
  -x 16 -s 16 -k 1M \
  --max-tries=0 --retry-wait=5 --timeout=60 \
  --summary-interval=10 \
  "$url"
'

注意 :数据库图像是 000.tar ~ 010.tar,不是 00 ~ 0405 ~ 10。上面的 seq -w 0 10 会生成 00 01 ... 10,但文件名是 000.tar ~ 010.tar。如果你的 seq 行为不同,建议手动写循环。

更稳妥的写法(避免 seq 格式问题):

复制代码
cd ~/datasets/pittsburgh250k
​
# 逐个下载 11 个 database tar
for num in 000 001 002 003 004 005 006 007 008 009 010; do
  wget "https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/${num}.tar"
done
​
# 下载查询图
wget https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/queries_real.tar
​
# 下载 .mat 划分文件
wget https://www.di.ens.fr/willow/research/netvlad/data/netvlad_v100_datasets.tar.gz

2. MD5 校验(确保下载完整)

复制代码
# 创建校验文件
cat > md5sum.txt << 'EOF'
3edec2fac461f4a740a21d509ad6e30e  000.tar
c97e5fffd53a2387f1f57b3ec3cae5cb  001.tar
afab887a76f8c4b5c017bd51ea105f5c  002.tar
f217320114299249ea6ebbd71eeb76de  003.tar
00ae08d9020b953c4e1125da5054577c  004.tar
be3fd968f96ebf2548adec23e94a8eb8  005.tar
89818a0841ec98a7b017ded678372652  006.tar
16cbd960c37715e73166d1c1361e337b  007.tar
589ce95e50038dccd012e4fc429bd3e3  008.tar
3f9de2504fddf140f17c6c8b4315a09e  009.tar
5175571cf6f0061aced10fb65e0c9691  010.tar
5611c4d601c92f6c7dd702fc2716914a  queries_real.tar
EOF
​
# 执行校验
md5sum -c md5sum.txt

如果某一项显示 FAILED,就单独重新下载那个文件。


3. 解压

复制代码
# 解压所有 database tar(会释放到当前目录,约 25 万张图)
for num in 000 001 002 003 004 005 006 007 008 009 010; do
  tar -xf ${num}.tar
done
​
# 解压查询图像
tar -xf queries_real.tar
​
# 解压 .mat 标签文件
tar -xzf netvlad_v100_datasets.tar.gz

4. 重要说明

问题 解答
全部都要下吗? 是的。 000.tar ~ 010.tar 是数据库图(约 25 万张),queries_real.tar 是查询图(约 2.4 万张),两者缺一不可。
.mat 文件是干嘛的? netvlad_v100_datasets.tar.gz 解压后包含 pitts250k_train.matpitts250k_val.matpitts250k_test.mat,它们定义了哪些图属于 train/val/test。没有这些,你无法从 25 万张里分出 test set。
Pittsburgh 30k 在哪? 没有单独包。 博客明确说了:"This is a subset of Pittsburgh 250k... download Pittsburgh 250k and the dataset specifications contain the information on which images form Pittsburgh 30k." 下载完 250k 后,用 .mat 文件里的索引提取即可。
大概多大? 11 个 database tar 每个约 3-4GB,总计约 35-40GB ;queries_real.tar 约 1-2GB;解压后更大。确保磁盘空间充足。

一句话总结

全部下载 11 个 000.tar~010.tar + queries_real.tar + netvlad_v100_datasets.tar.gz,校验 md5,逐个解压,最后用 .mat 文件划分 train/val/test。 这就是原作者提供的官方完整流程。

Nordland

复制代码
https://adelaideuniversity.app.box.com/s/zkfk1akpbo5318fzqmtvlpp7030ex4up

使用上方网站下载,下方是huggingface网站地址,很奇怪使用huggingface的方式我下不下来。

复制代码
https://huggingface.co/datasets/Somayeh-h/Nordland

还有一种方式是VPR-datasets-downloader中写的,但是下载很慢

复制代码
rsync -rhz --info=progress2 --ignore-existing rsync://vandaldata.polito.it/sf_xl/VPR-datasets-downloader/nordland .
相关推荐
坚定信念,勇往无前21 分钟前
electron-vite 安装better-sqlite3
javascript·数据库·electron
大明者省25 分钟前
Ubuntu22.04 宝塔面板与 XFCE 远程桌面端口兼容性分析
运维·服务器·数据库·笔记
liudanzhengxi1 小时前
巧用ULN2003A轻松扩展单片机IO口
数据库·mongodb
Teable任意门互动1 小时前
深度解析:AI 赋能开源多维表格,实现企业全场景数据整合与高效应用
数据库·人工智能·低代码·信息可视化·开源·数据库开发
DevOpenClub1 小时前
职教高考及高职分类招生控制线 API 接口
java·数据库·高考
funnycoffee1231 小时前
华为S5736交换机3层ECMP负载方式
linux·服务器·数据库
添砖java‘’1 小时前
MySQL复合查询
数据库·mysql
星川水月1 小时前
Access数据库快速入门——外部数据导入和SQL简单查询
数据库·sql·access
清平乐的技术专栏2 小时前
一文读懂Kafka中的“消费”(对标MySQL数据库)
数据库·mysql·kafka