多张GPU卡

from transformers import pipeline

from accelerate import init_empty_weights, infer_auto_device_map

from transformers import AutoModelForCausalLM, AutoTokenizer

初始化加速器

from accelerate import Accelerator

accelerator = Accelerator()

加载模型和 tokenizer

tokenizer = AutoTokenizer.from_pretrained("/app/model/")

model = AutoModelForCausalLM.from_pretrained("/app/model/")

将模型分布到多张 GPU 上

device_map = infer_auto_device_map(model, max_memory={0: "16GB", 1: "16GB", 2: "16GB", 3: "16GB", 4: "16GB", 5: "16GB", 6: "16GB", 7: "16GB"})

将模型加载到设备上

model = model.from_pretrained("/app/model/", device_map=device_map)

使用 pipeline

generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device_map=device_map)

进行推理

output = generator("Your input text", max_length=30)

print(output)

相关推荐
爱吃生蚝的于勒1 分钟前
【Linux】零基础学会linux环境基础开发工具使用(yum,vim,makefile,gdb)
linux·服务器·数据结构·c++·蓝桥杯·编辑器·vim
亿元程序员3 分钟前
你知道三国志战略版的地图是怎么实现的吗?
前端
豆沙沙包?4 分钟前
2025年--Lc188--931. 下降路径最小和(多维动态规划,矩阵)--Java版
java·矩阵·动态规划
本贾尼7 分钟前
Linux系统下的终端,会话,shell,bash,进程组这几个概念的关系。
linux·服务器·网络·ubuntu·bash
Rewloc11 分钟前
IntelliJ IDEA 打包 Web 项目 WAR 包(含 Tomcat 部署+常见问题解决)
前端·tomcat·intellij-idea
devii6613 分钟前
120html
前端
.生产的驴13 分钟前
React useEffect组件渲染执行操作 组件生命周期 监视器 副作用
前端·css·react.js·ajax·前端框架·jquery·html5
JAVA学习通14 分钟前
Spring AI 1.0 GA 深度解析:Java生态的AI革命已来
java·人工智能·spring·springai
峥无20 分钟前
HTML 零基础入门到实战:从骨架到页面的完整指南
前端·html
南囝coding27 分钟前
《独立开发者精选工具》
前端·后端·开源