如何在windows中使用hfd.sh aria2c下载huggingface文件

这里写目录标题

简介
hfd.sh使用方法
windows系统安装aria2c

aria2c官方文档： https://aria2.github.io/manual/en/html/aria2c.html

简介

我们在下载huggingface上模型权重的时候，要么在浏览器上直接下，要么使用官方下载程序。浏览器上还得一个一个点击，下载权重也是单线程（虽然有时单线程也能跑满带宽）。官方下载鲁棒性较差，时不时断个网，或者最后1%卡死。

padeoe作者开发了一个多线程下载权重脚本hfd，基于aria2实现多线程。aria2会将一个文件切分成多个小块，然后使用多线程方式同时下载多个块。

然而大家都在linux上安装aria2，windows安装时多有不便，所以今天给大家带来windows下使用hfd.sh aria2c下载huggingface文件的方法。

hfd.sh使用方法

下载hfd.sh文件：https://gist.github.com/padeoe/697678ab8e528b85a2a7bddafea1fa4f
可以点右上角download zip下载，里面有hfd.sh
由于windows的cmd无法运行sh文件，所以可以先安装git，在git bash中运行sh文件，并给该文件执行权限
shell 复制代码
```
chmod a+x hfd.sh
```
首先设置镜像端点，否则无法连接上远程库
shell 复制代码
```
export HF_ENDPOINT="https://hf-mirror.com"
```
然后运行sh文件下载，THUDM/glm-4-9b-chat为huggingface上的模型名称，--tool表示使用wget还是aria2c(默认)下载，-x表示线程数
通常模型文件会下到同级目录下
shell 复制代码
```
sh ./hfd.sh THUDM/glm-4-9b-chat --tool aria2c -x 4
```
具体用法为
shell 复制代码
```
hfd <model_id> [--exclude exclude_pattern] [--hf_username username] [--hf_token token] [--tool wget|aria2c] [-x threads] [--dataset]
```
- model_id: 下载的模型ID，格式为'repo/model_name'。
- --exclude: 可选参数，用于排除哪些文件。例如，有些库中既给了.bin的模型文件，又给了.safetensors的，就可以使用--exclude *.bin排除.bin文件。
- --hf_username: 可选参数，huggingface账户的用户名。有些模型（例如llama）需要申请才能下载，这时候就需要提供账户信息。
- --hf_toke: 可选参数，huggingface账户的访问令牌，与--hf_username一起使用，token获取方法在下面。
- --tool: 可选参数，指定下载工具。可以是wget或aria2c（默认）。aria2c支持多线程下载，可能更快。
- -x: 可选参数，仅当使用aria2c时有效。用于指定下载时的线程数。例如-x 8表示使用8个线程下载。
- --dataset: 可选参数，用来标记下载的是数据集而非模型。
若感觉每次下载需要初始化环境变量或者指定一堆参数太麻烦，可以在外面套个sh文件，例如我就在hfd同级目录下新建了一个downloads_hf_model.sh文件，每次在这里面修改就可以了。
bash 复制代码
```
export HF_ENDPOINT="https://hf-mirror.com"

sh ./hfd.sh THUDM/glm-4-9b-chat --tool aria2c -x 4 --exclude *.bin
```

huggingface token获取方法

进入huggingface官网，登录后点击头像，点击自己名字
左侧点击settings设置
点击左侧access tokens，右边没有token就创建一个，新建的时候只需要read权限就可以了
当前huggingface的规则是新建一个需要自己离线保存的token值，往后无法得到，token值忘记后需要重新刷新

windows系统安装aria2c

去aria2c github仓库中下载windows版本的zip压缩包，自己找个目录将其解压
将aria2加入系统环境变量，路径是自己解压的路径，写到文件夹名
之后重新打开cmd或PowerShell窗口（重新打开才能生效），输入aria2c或aria2c --version查看是否生效

添加配置文件aria2.conf ，第1步中刚下载的zip文件中是没有配置文件的，新建一个文件命名为aria2.conf，将以下信息写入。（相当于执行aria2c时的默认参数，也可以在执行时用-d、-k等覆盖）

txt 复制代码

# 下载文件的保存路径，使用hfd.sh下载huggingface文件时不用管这个，hfd.sh文件中用-d重新指定路径了
dir=D:\learning\python
# 启用RPC功能，一种网络通信技术
enable-rpc=true
RPC监听端口
rpc-listen-port=6800
# 最大同时下载任务数
max-concurrent-downloads=5

也可以将下面这些配置文件都放进去，等以后用的时候再修改

shell 复制代码

## '#'开头为注释内容, 选项都有相应的注释说明, 根据需要修改 ##
## 被注释的选项填写的是默认值, 建议在需要修改时再取消注释 ##
 
## 文件保存相关 ##
 
# 文件的保存路径(可使用绝对路径或相对路径), 默认: 当前启动位置
dir=D:\learning\python
# 启用磁盘缓存, 0为禁用缓存, 需1.16以上版本, 默认:16M
disk-cache=32M
# 文件预分配方式, 能有效降低磁盘碎片, 默认:prealloc
# 预分配所需时间: none < falloc ? trunc < prealloc
# falloc和trunc则需要文件系统和内核支持
# NTFS建议使用falloc, EXT3/4建议trunc, MAC 下需要注释此项
file-allocation=falloc
# 断点续传
continue=true
 
## 下载连接相关 ##
 
# 最大同时下载任务数, 运行时可修改, 默认:5
max-concurrent-downloads=3
# 同一服务器连接数, 添加时可指定, 默认:1
max-connection-per-server=5
# 最小文件分片大小, 添加时可指定, 取值范围1M -1024M, 默认:20M
# 假定size=10M, 文件为20MiB 则使用两个来源下载; 文件为15MiB 则使用一个来源下载
min-split-size=10M
# 单个任务最大线程数, 添加时可指定, 默认:5
split=5
# 整体下载速度限制, 运行时可修改, 默认:0
#max-overall-download-limit=0
# 单个任务下载速度限制, 默认:0
#max-download-limit=0
# 整体上传速度限制, 运行时可修改, 默认:0
#max-overall-upload-limit=0
# 单个任务上传速度限制, 默认:0
#max-upload-limit=0
# 禁用IPv6, 默认:false
disable-ipv6=true
 
## 进度保存相关 ##
 
# 从会话文件中读取下载任务
input-file=aria2.session
# 在Aria2退出时保存`错误/未完成`的下载任务到会话文件
save-session=aria2.session
# 定时保存会话, 0为退出时才保存, 需1.16.1以上版本, 默认:0
save-session-interval=60
 
## RPC相关设置 ##
 
# 启用RPC, 默认:false
enable-rpc=true
# 允许所有来源, 默认:false
rpc-allow-origin-all=true
# 允许非外部访问, 默认:false
rpc-listen-all=true
# 事件轮询方式, 取值:[epoll, kqueue, port, poll, select], 不同系统默认值不同
#event-poll=select
# RPC监听端口, 端口被占用时可以修改, 默认:6800
#rpc-listen-port=6800
 
## BT/PT下载相关 ##
 
# 当下载的是一个种子(以.torrent结尾)时, 自动开始BT任务, 默认:true
#follow-torrent=true
# BT监听端口, 当端口被屏蔽时使用, 默认:6881-6999
listen-port=51413
# 单个种子最大连接数, 默认:55
#bt-max-peers=55
# 打开DHT功能, PT需要禁用, 默认:true
enable-dht=false
# 打开IPv6 DHT功能, PT需要禁用
#enable-dht6=false
# DHT网络监听端口, 默认:6881-6999
#dht-listen-port=6881-6999
# 本地节点查找, PT需要禁用, 默认:false
#bt-enable-lpd=false
# 种子交换, PT需要禁用, 默认:true
enable-peer-exchange=false
# 每个种子限速, 对少种的PT很有用, 默认:50K
#bt-request-peer-speed-limit=50K
# 客户端伪装, PT需要
peer-id-prefix=-TR2770-
user-agent=Transmission/2.77
# 当种子的分享率达到这个数时, 自动停止做种, 0为一直做种, 默认:1.0
seed-ratio=0
# 强制保存会话, 话即使任务已经完成, 默认:false
# 较新的版本开启后会在任务完成后依然保留.aria2文件
#force-save=false
# BT校验相关, 默认:true
#bt-hash-check-seed=true
# 继续之前的BT任务时, 无需再次校验, 默认:false
bt-seed-unverified=true
# 保存磁力链接元数据为种子文件(.torrent文件), 默认:false
bt-save-metadata=true

写完.conf文件后，打开cmd或PowerShell窗口，执行以下命令(aria2.conf为自己的.conf路径，可以先cd到该文件目录下)

shell 复制代码

aria2c --conf-path==aria2.conf

这样再执行hfd.sh文件就可以顺利下载啦