VPR:Pitts50K和Norland数据集下载

Pitts250K

按照https://blog.csdn.net/qq_39743953/article/details/130515312 博客提供的原作者官方链接,Pittsburgh250k 的获取方式如下。


完整下载步骤

1. 创建目录并开始下载

复制代码
# 创建数据目录
mkdir -p ~/datasets/pittsburgh250k
cd ~/datasets/pittsburgh250k
​
# 下载数据库图像分卷(共 11 个 .tar)
for i in $(seq -w 0 10); do
  wget https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/0${i}.tar
done
​
# 下载查询图像
wget https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/queries_real.tar
​
# 下载数据集划分规范(.mat 标签文件)
wget https://www.di.ens.fr/willow/research/netvlad/data/netvlad_v100_datasets.tar.gz

使用wget巨慢

复制代码
# 创建数据目录
mkdir -p ~/datasets/pittsburgh250k
cd ~/datasets/pittsburgh250k
​
# 下载 000.tar ~ 010.tar,共 11 个文件;并行 2 个任务,每个任务 16 连接,支持断点续传与自动重试
seq -w 0 10 | xargs -I{} -P 2 bash -c '
url="https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/0{}.tar"
echo "[START] $url"
aria2c -c \
  -x 16 -s 16 -k 1M \
  --max-tries=0 --retry-wait=5 --timeout=60 \
  --summary-interval=10 \
  "$url"
'
​
# 下载查询图像
aria2c -c \
  -x 16 -s 16 -k 1M \
  --max-tries=0 --retry-wait=5 --timeout=60 \
  --summary-interval=10 \
  "https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/queries_real.tar"
​
# 下载数据集划分规范(.mat 标签文件)
url="https://www.di.ens.fr/willow/research/netvlad/data/{}"
echo "[START] $url"
aria2c -c \
  -x 16 -s 16 -k 1M \
  --max-tries=0 --retry-wait=5 --timeout=60 \
  --summary-interval=10 \
  "$url"
'

注意 :数据库图像是 000.tar ~ 010.tar,不是 00 ~ 0405 ~ 10。上面的 seq -w 0 10 会生成 00 01 ... 10,但文件名是 000.tar ~ 010.tar。如果你的 seq 行为不同,建议手动写循环。

更稳妥的写法(避免 seq 格式问题):

复制代码
cd ~/datasets/pittsburgh250k
​
# 逐个下载 11 个 database tar
for num in 000 001 002 003 004 005 006 007 008 009 010; do
  wget "https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/${num}.tar"
done
​
# 下载查询图
wget https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/queries_real.tar
​
# 下载 .mat 划分文件
wget https://www.di.ens.fr/willow/research/netvlad/data/netvlad_v100_datasets.tar.gz

2. MD5 校验(确保下载完整)

复制代码
# 创建校验文件
cat > md5sum.txt << 'EOF'
3edec2fac461f4a740a21d509ad6e30e  000.tar
c97e5fffd53a2387f1f57b3ec3cae5cb  001.tar
afab887a76f8c4b5c017bd51ea105f5c  002.tar
f217320114299249ea6ebbd71eeb76de  003.tar
00ae08d9020b953c4e1125da5054577c  004.tar
be3fd968f96ebf2548adec23e94a8eb8  005.tar
89818a0841ec98a7b017ded678372652  006.tar
16cbd960c37715e73166d1c1361e337b  007.tar
589ce95e50038dccd012e4fc429bd3e3  008.tar
3f9de2504fddf140f17c6c8b4315a09e  009.tar
5175571cf6f0061aced10fb65e0c9691  010.tar
5611c4d601c92f6c7dd702fc2716914a  queries_real.tar
EOF
​
# 执行校验
md5sum -c md5sum.txt

如果某一项显示 FAILED,就单独重新下载那个文件。


3. 解压

复制代码
# 解压所有 database tar(会释放到当前目录,约 25 万张图)
for num in 000 001 002 003 004 005 006 007 008 009 010; do
  tar -xf ${num}.tar
done
​
# 解压查询图像
tar -xf queries_real.tar
​
# 解压 .mat 标签文件
tar -xzf netvlad_v100_datasets.tar.gz

4. 重要说明

问题 解答
全部都要下吗? 是的。 000.tar ~ 010.tar 是数据库图(约 25 万张),queries_real.tar 是查询图(约 2.4 万张),两者缺一不可。
.mat 文件是干嘛的? netvlad_v100_datasets.tar.gz 解压后包含 pitts250k_train.matpitts250k_val.matpitts250k_test.mat,它们定义了哪些图属于 train/val/test。没有这些,你无法从 25 万张里分出 test set。
Pittsburgh 30k 在哪? 没有单独包。 博客明确说了:"This is a subset of Pittsburgh 250k... download Pittsburgh 250k and the dataset specifications contain the information on which images form Pittsburgh 30k." 下载完 250k 后,用 .mat 文件里的索引提取即可。
大概多大? 11 个 database tar 每个约 3-4GB,总计约 35-40GB ;queries_real.tar 约 1-2GB;解压后更大。确保磁盘空间充足。

一句话总结

全部下载 11 个 000.tar~010.tar + queries_real.tar + netvlad_v100_datasets.tar.gz,校验 md5,逐个解压,最后用 .mat 文件划分 train/val/test。 这就是原作者提供的官方完整流程。

Nordland

复制代码
https://adelaideuniversity.app.box.com/s/zkfk1akpbo5318fzqmtvlpp7030ex4up

使用上方网站下载,下方是huggingface网站地址,很奇怪使用huggingface的方式我下不下来。

复制代码
https://huggingface.co/datasets/Somayeh-h/Nordland

还有一种方式是VPR-datasets-downloader中写的,但是下载很慢

复制代码
rsync -rhz --info=progress2 --ignore-existing rsync://vandaldata.polito.it/sf_xl/VPR-datasets-downloader/nordland .
相关推荐
东风破1371 小时前
DM用户权限、表、约束等对象的基本操作,SQL日志的开启介绍
数据库·sql·dm达梦数据库
收获不止数据库1 小时前
达梦9发布会归来:AI 时代,我们需要一款什么样的数据库?
数据库·人工智能·ai·语言模型·数据分析
小宇的天下2 小时前
Virtuoso GUI 界面中的关键模块定义
数据库
bqq198610262 小时前
MySQL 5.7 与 MySQL 8.0 的主要区别
数据库·mysql
Elastic 中国社区官方博客3 小时前
Elastic-caveman : 在不损失 Elastic 最佳效果的情况下,将 AI 响应 tokens 减少64%
大数据·运维·数据库·人工智能·elasticsearch·搜索引擎·全文检索
互联网推荐官3 小时前
上海软件定制开发全流程拆解:需求分析、技术选型与交付管理的工程实践
大数据·数据库·需求分析
专注API从业者3 小时前
Open Claw 京东商品监控选品实战:一键抓取、实时监控、高效选品
java·服务器·数据库
大迪deblog3 小时前
系统架构师-数据库-数据库设计
数据库·oracle·系统架构
leo__5203 小时前
IEC 104 协议 C 语言实现
c语言·数据库