下载数据集

在 Ubuntu 上下载 Hugging Face 数据集,我推荐使用 `huggingface-cli` 这个官方工具,它稳定且支持断点续传。国内用户配置 `hf-mirror.com` 镜像站后,下载速度会快很多。

下面是完整的命令步骤,你可以逐条复制执行。

🐧 Ubuntu 完整下载命令

打开你的终端 (Terminal),依次运行以下命令:

**1. 安装依赖**

首先,确保系统安装了 `git-lfs`,这是下载大文件所必需的。

```bash

sudo apt update

sudo apt install git-lfs -y

git lfs install

```

**2. 安装 huggingface-cli**

这是 Hugging Face 官方的下载工具。

```bash

pip install -U huggingface_hub

```

**3. 配置国内镜像加速(关键步骤)**

这一步会将下载源切换到国内镜像站,能大幅提升下载速度和稳定性。

```bash

export HF_ENDPOINT=https://hf-mirror.com

```

为了让这个配置在下次打开终端时依然生效,可以把它写入配置文件:

```bash

echo 'export HF_ENDPOINT=https://hf-mirror.com' >> ~/.bashrc

```

**4. 执行下载命令**

根据你截图中的信息,数据集ID是 `Dobot-Official/Dobot-xtrainer-demo-data`。运行以下命令即可将它下载到当前目录下的 `Dobot-xtrainer-demo-data` 文件夹中。

```bash

huggingface-cli download Dobot-Official/Dobot-xtrainer-demo-data \

--repo-type dataset \

--local-dir ./Dobot-xtrainer-demo-data \

--resume-download

```

**参数说明:**

* `Dobot-Official/Dobot-xtrainer-demo-data`:你要下载的数据集ID。

* `--repo-type dataset`:指定下载的是一个**数据集**(而不是模型)。

* `--local-dir ./Dobot-xtrainer-demo-data`:指定文件保存的本地路径。

* `--resume-download`:启用**断点续传**功能,如果下载中断,再次运行相同命令即可继续,不用担心数据丢失。


🚀 备选方案:使用 `hfd` 脚本(追求极致速度)

如果你熟悉命令行,并且希望下载速度更快,可以使用 `hfd` 脚本,它调用 `aria2` 进行多线程下载,能跑满带宽。

```bash

1. 安装 aria2 下载工具

sudo apt install aria2 -y

2. 下载 hfd 脚本并赋予执行权限

wget https://hf-mirror.com/hfd/hfd.sh

chmod a+x hfd.sh

3. 设置镜像站

export HF_ENDPOINT=https://hf-mirror.com

4. 执行下载(使用 4 个线程,可根据网络情况调整)

./hfd.sh Dobot-Official/Dobot-xtrainer-demo-data \

--dataset \

--tool aria2c \

-x 4

```

> **请注意**:这个 6.12GB 的数据集下载需要一些时间,请确保网络稳定,并且有足够的磁盘空间。如果在下载中遇到任何错误,可以把提示信息发给我看看。

相关推荐
GLAB-Mary1 小时前
华为职业认证新版全景图介绍及重认证规则变更预通知
运维·服务器·华为·华为认证
wanhengidc1 小时前
服务器 数据科技发展
运维·服务器·爬虫·科技·游戏·智能手机
j_xxx404_2 小时前
Linux:缓冲区
linux·运维·c++·后端
信创DevOps先锋2 小时前
中国企业DevOps工具链选型指南:本土化与安全可控引领技术决策新趋势
运维·安全·devops
小梦爱安全2 小时前
ansible基础配置和ansible模块
运维·自动化·ansible
雨墨✘2 小时前
SAP硬件选择详解:服务器、存储与网络的全面解析
运维·服务器·网络
终端行者2 小时前
Jenkins 流水线 Pipeline 声明式语法基础 入门----上
运维·jenkins
七七powerful2 小时前
Nginx 日志切割完全指南:从原理到生产实战
运维·nginx
黑蛋同志2 小时前
KVM虚拟化热迁移
运维·虚拟化·kvm