下载数据集

在 Ubuntu 上下载 Hugging Face 数据集,我推荐使用 `huggingface-cli` 这个官方工具,它稳定且支持断点续传。国内用户配置 `hf-mirror.com` 镜像站后,下载速度会快很多。

下面是完整的命令步骤,你可以逐条复制执行。

🐧 Ubuntu 完整下载命令

打开你的终端 (Terminal),依次运行以下命令:

**1. 安装依赖**

首先,确保系统安装了 `git-lfs`,这是下载大文件所必需的。

```bash

sudo apt update

sudo apt install git-lfs -y

git lfs install

```

**2. 安装 huggingface-cli**

这是 Hugging Face 官方的下载工具。

```bash

pip install -U huggingface_hub

```

**3. 配置国内镜像加速(关键步骤)**

这一步会将下载源切换到国内镜像站,能大幅提升下载速度和稳定性。

```bash

export HF_ENDPOINT=https://hf-mirror.com

```

为了让这个配置在下次打开终端时依然生效,可以把它写入配置文件:

```bash

echo 'export HF_ENDPOINT=https://hf-mirror.com' >> ~/.bashrc

```

**4. 执行下载命令**

根据你截图中的信息,数据集ID是 `Dobot-Official/Dobot-xtrainer-demo-data`。运行以下命令即可将它下载到当前目录下的 `Dobot-xtrainer-demo-data` 文件夹中。

```bash

huggingface-cli download Dobot-Official/Dobot-xtrainer-demo-data \

--repo-type dataset \

--local-dir ./Dobot-xtrainer-demo-data \

--resume-download

```

**参数说明:**

* `Dobot-Official/Dobot-xtrainer-demo-data`:你要下载的数据集ID。

* `--repo-type dataset`:指定下载的是一个**数据集**(而不是模型)。

* `--local-dir ./Dobot-xtrainer-demo-data`:指定文件保存的本地路径。

* `--resume-download`:启用**断点续传**功能,如果下载中断,再次运行相同命令即可继续,不用担心数据丢失。


🚀 备选方案:使用 `hfd` 脚本(追求极致速度)

如果你熟悉命令行,并且希望下载速度更快,可以使用 `hfd` 脚本,它调用 `aria2` 进行多线程下载,能跑满带宽。

```bash

1. 安装 aria2 下载工具

sudo apt install aria2 -y

2. 下载 hfd 脚本并赋予执行权限

wget https://hf-mirror.com/hfd/hfd.sh

chmod a+x hfd.sh

3. 设置镜像站

export HF_ENDPOINT=https://hf-mirror.com

4. 执行下载(使用 4 个线程,可根据网络情况调整)

./hfd.sh Dobot-Official/Dobot-xtrainer-demo-data \

--dataset \

--tool aria2c \

-x 4

```

> **请注意**:这个 6.12GB 的数据集下载需要一些时间,请确保网络稳定,并且有足够的磁盘空间。如果在下载中遇到任何错误,可以把提示信息发给我看看。

相关推荐
AugustRed几秒前
Linux 运维常用命令大全(超全速查表)
运维·网络·php
Plastic garden16 分钟前
Docker(1)
运维·docker·容器
s_w.h28 分钟前
【 linux 】动静态库的制作
linux·运维·服务器·算法·bash
songjxin32 分钟前
Nginx 日志分析可视化面板
运维·nginx
专注VB编程开发20年1 小时前
安卓APP与服务器通讯技术,文件传输和文字消息收发
运维·服务器
Agent手记1 小时前
电信运营商如何用AI实现携号转网自动处理?基于实在Agent的业务自动化落地与TARS大模型解析方案
运维·人工智能·ai·自动化
wanhengidc2 小时前
云手机搬砖 像僵尸开炮
运维·网络·智能手机·云计算
_Voosk2 小时前
FreeBSD 使用代理运行命令
linux·运维·freebsd
lihui_cbdd2 小时前
HPC 集群上 OpenMM GPU 多版本安装实战指南
运维·服务器·人工智能·计算化学
志栋智能3 小时前
超越监控:超自动化巡检提供的主动价值
运维·网络·人工智能·自动化