下载数据集

在 Ubuntu 上下载 Hugging Face 数据集,我推荐使用 `huggingface-cli` 这个官方工具,它稳定且支持断点续传。国内用户配置 `hf-mirror.com` 镜像站后,下载速度会快很多。

下面是完整的命令步骤,你可以逐条复制执行。

🐧 Ubuntu 完整下载命令

打开你的终端 (Terminal),依次运行以下命令:

**1. 安装依赖**

首先,确保系统安装了 `git-lfs`,这是下载大文件所必需的。

```bash

sudo apt update

sudo apt install git-lfs -y

git lfs install

```

**2. 安装 huggingface-cli**

这是 Hugging Face 官方的下载工具。

```bash

pip install -U huggingface_hub

```

**3. 配置国内镜像加速(关键步骤)**

这一步会将下载源切换到国内镜像站,能大幅提升下载速度和稳定性。

```bash

export HF_ENDPOINT=https://hf-mirror.com

```

为了让这个配置在下次打开终端时依然生效,可以把它写入配置文件:

```bash

echo 'export HF_ENDPOINT=https://hf-mirror.com' >> ~/.bashrc

```

**4. 执行下载命令**

根据你截图中的信息,数据集ID是 `Dobot-Official/Dobot-xtrainer-demo-data`。运行以下命令即可将它下载到当前目录下的 `Dobot-xtrainer-demo-data` 文件夹中。

```bash

huggingface-cli download Dobot-Official/Dobot-xtrainer-demo-data \

--repo-type dataset \

--local-dir ./Dobot-xtrainer-demo-data \

--resume-download

```

**参数说明:**

* `Dobot-Official/Dobot-xtrainer-demo-data`:你要下载的数据集ID。

* `--repo-type dataset`:指定下载的是一个**数据集**(而不是模型)。

* `--local-dir ./Dobot-xtrainer-demo-data`:指定文件保存的本地路径。

* `--resume-download`:启用**断点续传**功能,如果下载中断,再次运行相同命令即可继续,不用担心数据丢失。


🚀 备选方案:使用 `hfd` 脚本(追求极致速度)

如果你熟悉命令行,并且希望下载速度更快,可以使用 `hfd` 脚本,它调用 `aria2` 进行多线程下载,能跑满带宽。

```bash

1. 安装 aria2 下载工具

sudo apt install aria2 -y

2. 下载 hfd 脚本并赋予执行权限

wget https://hf-mirror.com/hfd/hfd.sh

chmod a+x hfd.sh

3. 设置镜像站

export HF_ENDPOINT=https://hf-mirror.com

4. 执行下载(使用 4 个线程,可根据网络情况调整)

./hfd.sh Dobot-Official/Dobot-xtrainer-demo-data \

--dataset \

--tool aria2c \

-x 4

```

> **请注意**:这个 6.12GB 的数据集下载需要一些时间,请确保网络稳定,并且有足够的磁盘空间。如果在下载中遇到任何错误,可以把提示信息发给我看看。

相关推荐
xingyuzhisuan1 小时前
风冷还是水冷?RTX 4090服务器散热方案对比
运维·服务器·ai·gpu算力
你今天努力了吗?*—*1 小时前
4.1 Linux 日志排查
linux·运维·服务器
山上三树1 小时前
操作系统如何实现各种功能
linux·运维·服务器
妹妹够啦1 小时前
PyCharm创建venv环境
linux·运维·服务器
Tim风声(网络工程师)1 小时前
iMaster NCE-Campus和iMaster NCE-Fabric的区别
运维·fabric
我爱小疯喵喵1 小时前
5 Linux apt下载软件包
linux·运维·服务器
坚持就完事了1 小时前
Linux中的tr命令
linux·运维·服务器
xingyuzhisuan2 小时前
影视动画渲染租用RTX4090 GPU服务器的优势及选型指南
运维·服务器·ai编程·gpu算力
TG_yunshuguoji2 小时前
阿里云代理商:DeepSeek V4 API接入全攻略 + 云服务器部署指南
运维·阿里云·云计算·ai智能体·deepseek-v4
很懒的程序员雄2 小时前
eNSP企业级复杂拓扑
运维·服务器·网络