多张GPU卡

from transformers import pipeline

from accelerate import init_empty_weights, infer_auto_device_map

from transformers import AutoModelForCausalLM, AutoTokenizer

初始化加速器

from accelerate import Accelerator

accelerator = Accelerator()

加载模型和 tokenizer

tokenizer = AutoTokenizer.from_pretrained("/app/model/")

model = AutoModelForCausalLM.from_pretrained("/app/model/")

将模型分布到多张 GPU 上

device_map = infer_auto_device_map(model, max_memory={0: "16GB", 1: "16GB", 2: "16GB", 3: "16GB", 4: "16GB", 5: "16GB", 6: "16GB", 7: "16GB"})

将模型加载到设备上

model = model.from_pretrained("/app/model/", device_map=device_map)

使用 pipeline

generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device_map=device_map)

进行推理

output = generator("Your input text", max_length=30)

print(output)

相关推荐
BD_Marathon2 分钟前
【IDEA】Debug(调试)
java·ide·intellij-idea
派拉软件6 分钟前
身份访问控制助力企业开启“人、机、系、智”安全高效协同新范式!
服务器·网络·安全·api安全·身份与访问控制·企业协同
嘟嘟w15 分钟前
JVM性能调优
java
wordbaby15 分钟前
React Native (Expo) iOS 真机调试失败排查:xcodebuild exited with error code 65
前端·react native
Godson_beginner17 分钟前
Sa-Token (java权限认证框架)
java·开发语言
头发那是一根不剩了18 分钟前
Spring Boot「多数据源并存」的设计思路,它与动态数据源又有什么区别?
java·spring boot·后端
o***592722 分钟前
spring注入static属性
java·后端·spring
风象南26 分钟前
Spring Boot实现HTTPS双向认证
java·spring boot·后端
今天也很困29 分钟前
解决浏览器后台定时器降频问题:用 Worker 实现高精度 setInterval
前端
只与明月听32 分钟前
一次uniapp问题排查
前端·javascript·vue.js