huggingface/bert/transformer的模型默认下载路径以及自定义路径

小饼干超人2025-01-11 21:14

当使用 BertTokenizer.from_pretrained('bert-base-uncased') 加载预训练的 BERT 模型时，Hugging Face 的 transformers 库会从 Hugging Face Model Hub 下载所需的模型文件和分词器文件（如果它们不在本地缓存中）。

默认情况下，这些文件会被下载到本地的缓存目录中。缓存目录具体位置因您的操作系统和环境不同，但通常是以下路径之一：

默认缓存目录

Linux / Unix / macOS：
- 默认路径：~/.cache/huggingface/transformers
- 其中，~ 代表您的用户主目录。
Windows：
- 默认路径：C:\Users\<YourUserName>\.cache\huggingface\transformers

自定义缓存路径

如果由于某些原因您需要更改默认的缓存路径，可以通过设置环境变量 TRANSFORMERS_CACHE 来指定新的路径。例如，在命令行中设置：

bash 复制代码

export TRANSFORMERS_CACHE=/your/custom/path

或者在 Python 代码中动态设置：

python 复制代码

import os
os.environ['TRANSFORMERS_CACHE'] = '/your/custom/path'

检查文件的具体位置

我们可以通过简单的脚本检查缓存路径和下载的文件：

python 复制代码

from transformers import BertTokenizer

# 检查默认的缓存路径
import os
cache_path = os.path.join(os.path.expanduser("~"), ".cache", "huggingface", "transformers")
print(f"Default cache path: {cache_path}")

# 加载分词器，触发下载（如果尚未下载）
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 列出缓存目录中的文件
for root, dirs, files in os.walk(cache_path):
    for file in files:
        print(os.path.join(root, file))

通过该脚本，可以确认默认的缓存路径，并列出缓存目录中的文件，确保模型和分词器成功下载。