多张GPU卡

from transformers import pipeline

from accelerate import init_empty_weights, infer_auto_device_map

from transformers import AutoModelForCausalLM, AutoTokenizer

初始化加速器

from accelerate import Accelerator

accelerator = Accelerator()

加载模型和 tokenizer

tokenizer = AutoTokenizer.from_pretrained("/app/model/")

model = AutoModelForCausalLM.from_pretrained("/app/model/")

将模型分布到多张 GPU 上

device_map = infer_auto_device_map(model, max_memory={0: "16GB", 1: "16GB", 2: "16GB", 3: "16GB", 4: "16GB", 5: "16GB", 6: "16GB", 7: "16GB"})

将模型加载到设备上

model = model.from_pretrained("/app/model/", device_map=device_map)

使用 pipeline

generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device_map=device_map)

进行推理

output = generator("Your input text", max_length=30)

print(output)

相关推荐
普郎特10 分钟前
"不再迷惑!用'血缘关系'彻底搞懂JavaScript原型链机制"
前端·javascript
可观测性用观测云19 分钟前
前端错误可观测最佳实践
前端
恋猫de小郭20 分钟前
Android 将强制应用使用主题图标,你怎么看?
android·前端·flutter
道可到23 分钟前
Java 反射现代实践速查表(JDK 11+/17+)
java
christine-rr31 分钟前
linux常用命令(4)——压缩命令
linux·服务器·redis
道可到34 分钟前
Java 反射现代实践指南(JDK 11+ / 17+ 适用)
java
一枚前端小能手41 分钟前
「周更第3期」实用JS库推荐:Lodash
前端·javascript
艾小码41 分钟前
Vue组件到底怎么定义?全局注册和局部注册,我踩过的坑你别再踩了!
前端·javascript·vue.js
玉衡子44 分钟前
九、MySQL配置参数优化总结
java·mysql
叽哥1 小时前
Kotlin学习第 8 课:Kotlin 进阶特性:简化代码与提升效率
android·java·kotlin