多张GPU卡

from transformers import pipeline

from accelerate import init_empty_weights, infer_auto_device_map

from transformers import AutoModelForCausalLM, AutoTokenizer

初始化加速器

from accelerate import Accelerator

accelerator = Accelerator()

加载模型和 tokenizer

tokenizer = AutoTokenizer.from_pretrained("/app/model/")

model = AutoModelForCausalLM.from_pretrained("/app/model/")

将模型分布到多张 GPU 上

device_map = infer_auto_device_map(model, max_memory={0: "16GB", 1: "16GB", 2: "16GB", 3: "16GB", 4: "16GB", 5: "16GB", 6: "16GB", 7: "16GB"})

将模型加载到设备上

model = model.from_pretrained("/app/model/", device_map=device_map)

使用 pipeline

generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device_map=device_map)

进行推理

output = generator("Your input text", max_length=30)

print(output)

相关推荐
摸鱼的春哥22 分钟前
Agent教程15:认识LangChain(中),状态机思维
前端·javascript·后端
Seven9726 分钟前
剑指offer-80、⼆叉树中和为某⼀值的路径(二)
java
明月_清风28 分钟前
告别遮挡:用 scroll-padding 实现优雅的锚点跳转
前端·javascript
明月_清风31 分钟前
原生 JS 侧边栏缩放:从 DOM 监听到底层优化
前端·javascript
万少9 小时前
HarmonyOS 开发必会 5 种 Builder 详解
前端·harmonyos
橙序员小站12 小时前
Agent Skill 是什么?一文讲透 Agent Skill 的设计与实现
前端·后端
怒放吧德德12 小时前
Netty 4.2 入门指南:从概念到第一个程序
java·后端·netty
雨中飘荡的记忆13 小时前
大流量下库存扣减的数据库瓶颈:Redis分片缓存解决方案
java·redis·后端
炫饭第一名14 小时前
速通Canvas指北🦮——基础入门篇
前端·javascript·程序员
王晓枫14 小时前
flutter接入三方库运行报错:Error running pod install
前端·flutter