下载数据集

在 Ubuntu 上下载 Hugging Face 数据集,我推荐使用 `huggingface-cli` 这个官方工具,它稳定且支持断点续传。国内用户配置 `hf-mirror.com` 镜像站后,下载速度会快很多。

下面是完整的命令步骤,你可以逐条复制执行。

🐧 Ubuntu 完整下载命令

打开你的终端 (Terminal),依次运行以下命令:

**1. 安装依赖**

首先,确保系统安装了 `git-lfs`,这是下载大文件所必需的。

```bash

sudo apt update

sudo apt install git-lfs -y

git lfs install

```

**2. 安装 huggingface-cli**

这是 Hugging Face 官方的下载工具。

```bash

pip install -U huggingface_hub

```

**3. 配置国内镜像加速(关键步骤)**

这一步会将下载源切换到国内镜像站,能大幅提升下载速度和稳定性。

```bash

export HF_ENDPOINT=https://hf-mirror.com

```

为了让这个配置在下次打开终端时依然生效,可以把它写入配置文件:

```bash

echo 'export HF_ENDPOINT=https://hf-mirror.com' >> ~/.bashrc

```

**4. 执行下载命令**

根据你截图中的信息,数据集ID是 `Dobot-Official/Dobot-xtrainer-demo-data`。运行以下命令即可将它下载到当前目录下的 `Dobot-xtrainer-demo-data` 文件夹中。

```bash

huggingface-cli download Dobot-Official/Dobot-xtrainer-demo-data \

--repo-type dataset \

--local-dir ./Dobot-xtrainer-demo-data \

--resume-download

```

**参数说明:**

* `Dobot-Official/Dobot-xtrainer-demo-data`:你要下载的数据集ID。

* `--repo-type dataset`:指定下载的是一个**数据集**(而不是模型)。

* `--local-dir ./Dobot-xtrainer-demo-data`:指定文件保存的本地路径。

* `--resume-download`:启用**断点续传**功能,如果下载中断,再次运行相同命令即可继续,不用担心数据丢失。


🚀 备选方案:使用 `hfd` 脚本(追求极致速度)

如果你熟悉命令行,并且希望下载速度更快,可以使用 `hfd` 脚本,它调用 `aria2` 进行多线程下载,能跑满带宽。

```bash

1. 安装 aria2 下载工具

sudo apt install aria2 -y

2. 下载 hfd 脚本并赋予执行权限

wget https://hf-mirror.com/hfd/hfd.sh

chmod a+x hfd.sh

3. 设置镜像站

export HF_ENDPOINT=https://hf-mirror.com

4. 执行下载(使用 4 个线程,可根据网络情况调整)

./hfd.sh Dobot-Official/Dobot-xtrainer-demo-data \

--dataset \

--tool aria2c \

-x 4

```

> **请注意**:这个 6.12GB 的数据集下载需要一些时间,请确保网络稳定,并且有足够的磁盘空间。如果在下载中遇到任何错误,可以把提示信息发给我看看。

相关推荐
大树883 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
摇滚侠3 天前
Linux CentOS7 rpm 安装 MySQL 5.7
linux·运维·mysql
霸道流氓气质3 天前
领域驱动设计(DDD)在 Spring Boot 微服务中的实践指南
运维·spring boot·微服务
Inhand陈工3 天前
基于台达PLC与映翰通IG502的智慧水产养殖精准投喂与远程运维解决方案
运维·人工智能·物联网·阿里云·信息与通信
酣大智3 天前
ARP代理--工作原理
运维·网络·arp·arp代理
shushangyun_3 天前
2026年快消品B2B系统推荐:支持终端门店订货、促销政策自动化的工具?
java·运维·网络·数据库·人工智能·spring·自动化
施努卡机器视觉3 天前
SNK施努卡侧滑门锁上滑轮总成自动化装配线,从零件到组件,全流程精密制造方案
运维·自动化·制造
AC赳赳老秦3 天前
用 OpenClaw 搭建服务器故障应急响应系统,自动处理 80% 常见运维故障
android·运维·服务器·python·rxjava·deepseek·openclaw
java_cj3 天前
深入kube-apiserver认证机制:从Bearer Token到mTLS的完整认证链解析
linux·运维·服务器·云原生·容器·kubernetes
lsyeei3 天前
linux 系统目录详解
linux·运维·服务器