方法一:huggingface-cli
huggingface-cli是Hugging Face官方提供的命令行工具,自带完善的下载功能。
- 安装依赖
bash
pip install -U huggingface_hub
- 设置环境变量: Linux
bash
export HF_ENDPOINT=https://hf-mirror.com
建议将上面这一行写入~/.bashrc 。
3.1 下载模型
bash
huggingface-cli download --resume-download gpt2 --local-dir gpt2
3.2 下载数据集
huggingface-cli download --repo-type dataset --resume-download wikitext --local-dir wikitext
可以添加 --local-dir-use-symlinks False 参数禁用文件软链接,这样下载路径下所见即所得,语句中gpt2和wikitext为模型名和数据集名称根据需要可替换。
方法二:使用hfd
- 下载hfd
bash
wget https://hf-mirror.com/hfd/hfd.sh && chmod a+x hfd.sh
- 设置环境变量: Linux
bash
export HF_ENDPOINT=https://hf-mirror.com
3.1 下载模型
bash
./hfd.sh gpt2 --tool aria2c-x4
3.2 下载数据集
bash
./hfd.sh wikitext --dataset --tool aria2c -x4
语句中gpt2和wikitext为模型名和数据集名称根据需要可替换,aria2c为预装工具,安装口令:'apt update && apt install aria2'
部分 Gated Repo 问题
部分Gated Repo需登陆申请许可。前往Hugging Face获取AccessToken后使用命令行下载。
部分工具下载Gated Repo的方法:
huggingface-cli:添加--token 参数
huggingface-cli download --token hf_*** --resume-download meta-llama/Llama-2-7b-hf --local-dir Llama-2-7b-hf
hfd: 添加--hf_username --hf_token 参数
hfd meta-llama/Llama-2-7b --hf_username YOUR_HF_USERNAME --hf_token hf_***
注:容器内下载存在限速,下载大数据集或大模型时,建议本地下载后再使用SFTP上传