多张GPU卡

from transformers import pipeline

from accelerate import init_empty_weights, infer_auto_device_map

from transformers import AutoModelForCausalLM, AutoTokenizer

初始化加速器

from accelerate import Accelerator

accelerator = Accelerator()

加载模型和 tokenizer

tokenizer = AutoTokenizer.from_pretrained("/app/model/")

model = AutoModelForCausalLM.from_pretrained("/app/model/")

将模型分布到多张 GPU 上

device_map = infer_auto_device_map(model, max_memory={0: "16GB", 1: "16GB", 2: "16GB", 3: "16GB", 4: "16GB", 5: "16GB", 6: "16GB", 7: "16GB"})

将模型加载到设备上

model = model.from_pretrained("/app/model/", device_map=device_map)

使用 pipeline

generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device_map=device_map)

进行推理

output = generator("Your input text", max_length=30)

print(output)

相关推荐
翠莲几秒前
vue3+TS+eslint9配置
前端·代码规范
发渐稀3 分钟前
vue项目引入tailwindcss
前端·javascript·vue.js
用户26834842239593 分钟前
前端换肤功能最佳实践:从基础实现到高级优化
前端·css
前端掘金者H4 分钟前
Chrome插件实现WebPush推送通知的功能
前端·chrome
yinke小琪5 分钟前
快速开始 - TypeScript 入门指南
前端·typescript
青花雅月6 分钟前
封装标记📌前后数据比较的表格
前端·javascript
Kjjia6 分钟前
将内容明文存储在indexDB后,被指着鼻子骂道赶紧把数据隐藏...
前端·安全
本郡主是喵8 分钟前
并发编程 - go版
java·服务器·开发语言
冷凌爱13 分钟前
总结HTML中的文本标签
前端·笔记·html