还可以更快更强 | huggingface加载本地模型


分析问题

问题的起源

事情起因是这样的,我们要使用huggingface,但是日常因为联网问题无法加载模型。因为是服务器集群,搭梯子让我们在docker里弄,所以像我这种懒人,docker?算了,我还是直接手动下载吧,具体看这:服务器huggingface联网通用方案

  • 问题:不能联网下模型,不想搭梯子

  • 解决:缓存模型

但是我是个懒人,我解决的方法只直接在系统默认缓存位置的.cache里缓存文件。

这会带来另一个问题。模型加载过程中会有很大一部分在加载模型。

因为如果你没修改过from_pretrainedforce_download (bool, optional, defaults to False),那么他加载模型的逻辑是这样的:

rust 复制代码
需要加载模型的时候:
去缓存里找-->找不到-->去huggingface下载-->下载不下来-->去缓存里找-->没找到-->报错
    |                                                   |
    -->找到-->加载模型                           -->找到-->加载模型

我的实验用到4个预训练模型,以及n个huggingface的评价指标。

这个过程会耗费大量的时间。

耗费大量时间,根本无所谓,毕竟我懒,根本不想改代码。

但是。问题来了。在我6卡V100跑了两个多周之后,师兄跑来问我是不是实验卡了。

因为他采样时候是这样的,只占一捏捏缓存,GPU是不用的。

为了不挨骂,我决定改一下代码。


修改

评价指标

先说评价指标:

PY 复制代码
def compute_perplexity(all_texts_list, model_id='gpt2-large'):
    torch.cuda.empty_cache() 
    perplexity = load("perplexity", module_type="metric")
    results = perplexity.compute(predictions=all_texts_list, model_id=model_id, device='cuda')
    return results['mean_perplexity']

我这段代码里需要加载评价指标perplexity加载模型gpt2-large

现看加载评价指标的load:

这里写的:

a local path to processing script or the directory containing the script (if the script has the same name as the directory),e.g. './metrics/rouge' or './metrics/rouge/rouge.py'

需要你把评价指标外嵌套一个同名的文件夹。所以文件应该如下放置。

为了确保准确,我这里传入绝对位置,需要借助os

py 复制代码
# 获得当前文件夹的目录
import os
cur_dir = os.path.split(__file__)[0]

os.path.split(__file__): __file__ 是Python中的一个内置变量,它指向当前脚本文件的路径。os.path.split() 函数将这个路径分为两部分,第一部分是文件所在的目录,第二部分是文件名。例如,如果 __file__ 的值是'/path/to/script.py',那么 os.path.split(__file__) 将返回 ('/path/to', 'script.py')

cur_dir = os.path.split(__file__)[0]: 这一行代码获取了当前脚本文件所在的目录,即 '/path/to'。它将目录部分提取出来并存储在变量 cur_dir 中。

f"{cur_dir}/perplexity"即可获得我当前目录存的perplexity。

模型

因为perplexity需要用到预训练模型,我们可以看到我们传入的model_id是模型名,点进这个计算函数看一下。

可以看到传入的model_id直接在这里进行了模型加载。

from_pretrained实现代码注释这样写。

A string, the model id of a predefined tokenizer hosted inside a model repo on huggingface.co. Valid model ids can be located at the root-level, like bert-base-uncased, or namespaced under auser or organization name, like dbmdz/bert-base-german-cased.

传入本地文件夹包含模型文件即可。

所以我们只需要将缓存中的模型及其配置新建个文件夹放进去即可。

看一下文件夹嵌套就知道为什么传入绝对地址了。

compute_perplexity是evaluation.py的函数,但是这个函数引用了同目录下的perplexity/perplexity.py,但是这个perplexity.py要load上上级文件夹下的模型。为了防止混乱,我们还是使用os.path获取位置比较方便。

py 复制代码
import os

model_id = "gpt2-large"
cur_dir = os.path.split(__file__)[0]
model_dir = '/'.join(cur_dir.split('/')[:-1])
print(f"{model_dir}/assist_model/{model_id}")

这段代码用于获取当前脚本文件所在目录的上级目录(parent directory)的路径,通常用于构建文件路径或定位相关资源文件。

cur_dir.split('/'): 这一行代码使用斜杠 / 分割 cur_dir 中的路径字符串,将其拆分成一个列表。例如,如果 cur_dir 的值是 '/path/to',那么 cur_dir.split('/') 将返回 ['', 'path', 'to']

[:-1]: 这是一个切片操作,它用于获取列表中除了最后一个元素之外的所有元素。在这里,[:-1] 表示获取拆分后列表中的所有元素,除了最后一个元素 'to'

'/':这是字符串,用于将列表中的元素连接起来,形成一个新的路径字符串。

最终,model_dir 的值将是当前脚本文件所在的目录的上级目录的路径,具体取决于当前脚本文件的位置和文件系统的路径分隔符。

这样我们就能在evaluation.py获取到上级文件夹的模型。

修改之后的代码如下,我们就可以全部从本地文件夹直接加载了。

py 复制代码
import os

cur_dir = os.path.split(__file__)[0]
model_dir = '/'.join(cur_dir.split('/')[:-1])

def compute_perplexity(all_texts_list, model_id='gpt2-large'):
    torch.cuda.empty_cache()
    perplexity = load(f"{cur_dir}/perplexity", module_type="metric")
    model_id = f"{model_dir}/assist_model/{model_id}"
    results = perplexity.compute(predictions=all_texts_list, model_id=model_id, device='cuda')
    return results['mean_perplexity']

总结

  1. 找到loadfrom_pretrained

  2. 把模型丢个文件夹里

  3. os.path传入绝对路径


其他

问题1

提问:

为什么要在项目里搞个本地文件夹加载模型和评价指标?直接load的时候从本地缓存加载不就行了。

回答:

我都要load本地地址了,我为什么不搞个好load的,还要搞那一长串缓存地址?

C:\Users\ann\.cache\huggingface\hub\models--gpt2-large\snapshots\97935fc1a406f447320c3db70fe9e9875dca2595
D:\ld4_off\model\gpt2-large

1和2我选2.

问题2

提问: 嫌弃默认的.cache,为什么不改个缓存地址?

回答: 确实,

py 复制代码
from transformers import set_cache_dir, AutoModel

# 设置全局的缓存目录
set_cache_dir('/path/to/cache/directory')

# 使用from_pretrained函数加载模型(确保引用全局缓存目录)
model = AutoModel.from_pretrained('bert-base-uncased',cache_dir='/path/to/model/cache')

# 此时模型将从缓存加载,如果缓存不存在,它将尝试从缓存加载,而不重新下载

这样可以修改缓存位置,但是,他好像还是缓存啊......,还是从缓存里读的那个逻辑,还是要走他那个从cache加载的逻辑,不如直接load本地模型吧。我个人感觉是直接加载本地模型更快。

信我,速改,改完以后极其丝滑:

相关推荐
FreeLikeTheWind.44 分钟前
C语言实例之9斐波那契数列实现
c语言·开发语言·算法
CodeDevMaster1 小时前
LangChain之检索增强生成RAG
人工智能·python·llm
凡解1 小时前
[自动化测试:实践01]:2:(4-1 )元素定位(selenium)在实际场景中的应用2
自动化测试·python·selenium·测试工具
cherry_rainyyy1 小时前
力扣整理版九:贪心算法(待整理)
算法·leetcode·贪心算法
卖个几把萌2 小时前
【04】Selenium+Python 手动添加Cookie免登录(实例)
python·selenium·测试工具
数学人学c语言2 小时前
yolov11剪枝
pytorch·python·深度学习
海阔天空_20132 小时前
浏览器自动化库playwright简介
网络·python·自动化
兔子的洋葱圈2 小时前
Python的3D可视化库 - vedo (3)visual子模块 点对象的可视化控制
python·数据可视化
努力的小好2 小时前
【python】数据可视化之图像处理
图像处理·python·信息可视化
一只小菜鸡2 小时前
python+django5.1+docker实现CICD自动化部署springboot 项目前后端分离vue-element
python·docker·自动化