多张GPU卡

from transformers import pipeline

from accelerate import init_empty_weights, infer_auto_device_map

from transformers import AutoModelForCausalLM, AutoTokenizer

初始化加速器

from accelerate import Accelerator

accelerator = Accelerator()

加载模型和 tokenizer

tokenizer = AutoTokenizer.from_pretrained("/app/model/")

model = AutoModelForCausalLM.from_pretrained("/app/model/")

将模型分布到多张 GPU 上

device_map = infer_auto_device_map(model, max_memory={0: "16GB", 1: "16GB", 2: "16GB", 3: "16GB", 4: "16GB", 5: "16GB", 6: "16GB", 7: "16GB"})

将模型加载到设备上

model = model.from_pretrained("/app/model/", device_map=device_map)

使用 pipeline

generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device_map=device_map)

进行推理

output = generator("Your input text", max_length=30)

print(output)

相关推荐
荔枝味-37 分钟前
html详细知识
前端·javascript·html
我是一颗小小的螺丝钉44 分钟前
idea插件推荐之Cool Request
java·ide·intellij-idea
轩轶子2 小时前
【C-项目】网盘(一期,无限进程版)
服务器·c语言·网络
Jason-河山3 小时前
「铭记历史 珍爱和平」勿忘9.18!
前端
S+叮当猫3 小时前
第五部分:2---信号的介绍、产生、处理
linux·运维·服务器
国王不在家3 小时前
keyof和infer
前端
猿大撒3 小时前
Spring-data-redis
前端·bootstrap·html
帅过二硕ฅ4 小时前
uniapp点击跳转到对应位置
前端·javascript·uni-app
Kerwin要坚持日更4 小时前
Java小白一文讲清Java中集合相关的知识点(九)
java·开发语言
WZF-Sang6 小时前
Linux权限理解【Shell的理解】【linux权限的概念、管理、切换】【粘滞位理解】
linux·运维·服务器·开发语言·学习