如何在windows中使用hfd.sh aria2c下载huggingface文件

这里写目录标题

aria2c官方文档: https://aria2.github.io/manual/en/html/aria2c.html

简介

我们在下载huggingface上模型权重的时候,要么在浏览器上直接下,要么使用官方下载程序。浏览器上还得一个一个点击,下载权重也是单线程(虽然有时单线程也能跑满带宽)。官方下载鲁棒性较差,时不时断个网,或者最后1%卡死。

padeoe作者开发了一个多线程下载权重脚本hfd,基于aria2实现多线程。aria2会将一个文件切分成多个小块,然后使用多线程方式同时下载多个块。

然而大家都在linux上安装aria2,windows安装时多有不便,所以今天给大家带来windows下使用hfd.sh aria2c下载huggingface文件的方法。

hfd.sh使用方法

  1. 下载hfd.sh文件:https://gist.github.com/padeoe/697678ab8e528b85a2a7bddafea1fa4f
    可以点右上角download zip下载,里面有hfd.sh

  2. 由于windows的cmd无法运行sh文件,所以可以先安装git,在git bash中运行sh文件,并给该文件执行权限

    shell 复制代码
    chmod a+x hfd.sh
  3. 首先设置镜像端点,否则无法连接上远程库

    shell 复制代码
    export HF_ENDPOINT="https://hf-mirror.com"
  4. 然后运行sh文件下载,THUDM/glm-4-9b-chat为huggingface上的模型名称,--tool表示使用wget还是aria2c(默认)下载,-x表示线程数
    通常模型文件会下到同级目录下

    shell 复制代码
    sh ./hfd.sh THUDM/glm-4-9b-chat --tool aria2c -x 4

    具体用法为

    shell 复制代码
    hfd <model_id> [--exclude exclude_pattern] [--hf_username username] [--hf_token token] [--tool wget|aria2c] [-x threads] [--dataset]
    • model_id: 下载的模型ID,格式为'repo/model_name'。
    • --exclude: 可选参数,用于排除哪些文件。例如,有些库中既给了.bin的模型文件,又给了.safetensors的,就可以使用--exclude *.bin排除.bin文件。
    • --hf_username: 可选参数,huggingface账户的用户名。有些模型(例如llama)需要申请才能下载,这时候就需要提供账户信息。
    • --hf_toke: 可选参数,huggingface账户的访问令牌,与--hf_username一起使用,token获取方法在下面。
    • --tool: 可选参数,指定下载工具。可以是wget或aria2c(默认)。aria2c支持多线程下载,可能更快。
    • -x: 可选参数,仅当使用aria2c时有效。用于指定下载时的线程数。例如-x 8表示使用8个线程下载。
    • --dataset: 可选参数,用来标记下载的是数据集而非模型。
  5. 若感觉每次下载需要初始化环境变量或者指定一堆参数太麻烦,可以在外面套个sh文件,例如我就在hfd同级目录下新建了一个downloads_hf_model.sh文件,每次在这里面修改就可以了。

    bash 复制代码
    export HF_ENDPOINT="https://hf-mirror.com"
    
    sh ./hfd.sh THUDM/glm-4-9b-chat --tool aria2c -x 4 --exclude *.bin

huggingface token获取方法

  1. 进入huggingface官网,登录后点击头像,点击自己名字
  2. 左侧点击settings设置
  3. 点击左侧access tokens,右边没有token就创建一个,新建的时候只需要read权限就可以了
  4. 当前huggingface的规则是新建一个需要自己离线保存的token值,往后无法得到,token值忘记后需要重新刷新

windows系统安装aria2c

  1. aria2c github仓库中下载windows版本的zip压缩包,自己找个目录将其解压

  2. 将aria2加入系统环境变量,路径是自己解压的路径,写到文件夹名

  3. 之后重新打开cmd或PowerShell窗口(重新打开才能生效),输入aria2c或aria2c --version查看是否生效

  4. 添加配置文件aria2.conf ,第1步中刚下载的zip文件中是没有配置文件的,新建一个文件命名为aria2.conf,将以下信息写入。(相当于执行aria2c时的默认参数,也可以在执行时用-d、-k等覆盖)

    txt 复制代码
    # 下载文件的保存路径,使用hfd.sh下载huggingface文件时不用管这个,hfd.sh文件中用-d重新指定路径了
    dir=D:\learning\python
    # 启用RPC功能,一种网络通信技术
    enable-rpc=true
    RPC监听端口
    rpc-listen-port=6800
    # 最大同时下载任务数
    max-concurrent-downloads=5

    也可以将下面这些配置文件都放进去,等以后用的时候再修改

    shell 复制代码
    ## '#'开头为注释内容, 选项都有相应的注释说明, 根据需要修改 ##
    ## 被注释的选项填写的是默认值, 建议在需要修改时再取消注释 ##
     
    ## 文件保存相关 ##
     
    # 文件的保存路径(可使用绝对路径或相对路径), 默认: 当前启动位置
    dir=D:\learning\python
    # 启用磁盘缓存, 0为禁用缓存, 需1.16以上版本, 默认:16M
    disk-cache=32M
    # 文件预分配方式, 能有效降低磁盘碎片, 默认:prealloc
    # 预分配所需时间: none < falloc ? trunc < prealloc
    # falloc和trunc则需要文件系统和内核支持
    # NTFS建议使用falloc, EXT3/4建议trunc, MAC 下需要注释此项
    file-allocation=falloc
    # 断点续传
    continue=true
     
    ## 下载连接相关 ##
     
    # 最大同时下载任务数, 运行时可修改, 默认:5
    max-concurrent-downloads=3
    # 同一服务器连接数, 添加时可指定, 默认:1
    max-connection-per-server=5
    # 最小文件分片大小, 添加时可指定, 取值范围1M -1024M, 默认:20M
    # 假定size=10M, 文件为20MiB 则使用两个来源下载; 文件为15MiB 则使用一个来源下载
    min-split-size=10M
    # 单个任务最大线程数, 添加时可指定, 默认:5
    split=5
    # 整体下载速度限制, 运行时可修改, 默认:0
    #max-overall-download-limit=0
    # 单个任务下载速度限制, 默认:0
    #max-download-limit=0
    # 整体上传速度限制, 运行时可修改, 默认:0
    #max-overall-upload-limit=0
    # 单个任务上传速度限制, 默认:0
    #max-upload-limit=0
    # 禁用IPv6, 默认:false
    disable-ipv6=true
     
    ## 进度保存相关 ##
     
    # 从会话文件中读取下载任务
    input-file=aria2.session
    # 在Aria2退出时保存`错误/未完成`的下载任务到会话文件
    save-session=aria2.session
    # 定时保存会话, 0为退出时才保存, 需1.16.1以上版本, 默认:0
    save-session-interval=60
     
    ## RPC相关设置 ##
     
    # 启用RPC, 默认:false
    enable-rpc=true
    # 允许所有来源, 默认:false
    rpc-allow-origin-all=true
    # 允许非外部访问, 默认:false
    rpc-listen-all=true
    # 事件轮询方式, 取值:[epoll, kqueue, port, poll, select], 不同系统默认值不同
    #event-poll=select
    # RPC监听端口, 端口被占用时可以修改, 默认:6800
    #rpc-listen-port=6800
     
    ## BT/PT下载相关 ##
     
    # 当下载的是一个种子(以.torrent结尾)时, 自动开始BT任务, 默认:true
    #follow-torrent=true
    # BT监听端口, 当端口被屏蔽时使用, 默认:6881-6999
    listen-port=51413
    # 单个种子最大连接数, 默认:55
    #bt-max-peers=55
    # 打开DHT功能, PT需要禁用, 默认:true
    enable-dht=false
    # 打开IPv6 DHT功能, PT需要禁用
    #enable-dht6=false
    # DHT网络监听端口, 默认:6881-6999
    #dht-listen-port=6881-6999
    # 本地节点查找, PT需要禁用, 默认:false
    #bt-enable-lpd=false
    # 种子交换, PT需要禁用, 默认:true
    enable-peer-exchange=false
    # 每个种子限速, 对少种的PT很有用, 默认:50K
    #bt-request-peer-speed-limit=50K
    # 客户端伪装, PT需要
    peer-id-prefix=-TR2770-
    user-agent=Transmission/2.77
    # 当种子的分享率达到这个数时, 自动停止做种, 0为一直做种, 默认:1.0
    seed-ratio=0
    # 强制保存会话, 话即使任务已经完成, 默认:false
    # 较新的版本开启后会在任务完成后依然保留.aria2文件
    #force-save=false
    # BT校验相关, 默认:true
    #bt-hash-check-seed=true
    # 继续之前的BT任务时, 无需再次校验, 默认:false
    bt-seed-unverified=true
    # 保存磁力链接元数据为种子文件(.torrent文件), 默认:false
    bt-save-metadata=true

    写完.conf文件后,打开cmd或PowerShell窗口,执行以下命令(aria2.conf为自己的.conf路径,可以先cd到该文件目录下)

    shell 复制代码
    aria2c --conf-path==aria2.conf

这样再执行hfd.sh文件就可以顺利下载啦

相关推荐
鱼满满记32 分钟前
1.6K+ Star!GenAIScript:一个可自动化的GenAI脚本环境
人工智能·ai·github
manfulshark2 小时前
OPENAI官方prompt文档解析
ai·prompt
阿_旭2 小时前
基于YOLO11/v10/v8/v5深度学习的维修工具检测识别系统设计与实现【python源码+Pyqt5界面+数据集+训练代码】
人工智能·python·深度学习·qt·ai
NETFARMER运营坛3 小时前
如何优化 B2B 转化率?这些步骤你不可不知
大数据·安全·阿里云·ai·ai写作
AI原吾13 小时前
探索 Python 图像处理的瑞士军刀:Pillow 库
图像处理·python·ai·pillow
探索云原生14 小时前
GPU 环境搭建指南:如何在裸机、Docker、K8s 等环境中使用 GPU
ai·云原生·kubernetes·go·gpu
AI原吾14 小时前
`psdparse`:解锁Photoshop PSD文件的Python密钥
python·ui·ai·photoshop·psdparse
HuggingAI15 小时前
stable diffusion 大模型
人工智能·ai·stable diffusion·ai绘画
DogDaoDao1 天前
深度学习常用开源数据集介绍【持续更新】
图像处理·人工智能·深度学习·ai·数据集
卡洛驰1 天前
交叉熵损失函数详解
人工智能·深度学习·算法·机器学习·ai·分类·概率论