记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队

一、问题是怎么发现的

部署chatglm2和llama2到一个4*V100的GPU机器上遇到问题

config.pbtxt

中设置模型分别在指定gpu上部署实例配置不生效

如以下配置为在gpu0上部署本模型,部署count=1个实例,在gpu1上部署本模型,部署count=2个实例

instance_group { count: 1 kind: KIND_GPU gpus: \[ 0 },

{ count: 2

kind: KIND_GPU

gpus: 1 } ]

部署时发现,所有模型实例都会被部署到gpu0上面, 由于gpu只有16g显存,在部署第一个模型实例成功后,第二个模型实例也会往gpu0上进行加载,最终导致cuda out of memery.

网上搜索发现有人遇到同样的问题,链接: github.com/triton-infe...

二、问题带来的影响

三、排查问题的详细过程

大佬回答解决方案:

四、如何解决问题

1.在model.py手动获取config.pbtxt配置的gpu编号gpus:0

instance_group [

{

count: 1

kind: KIND_GPU

gpus: 0

}

]

2.设置可用的GPU编号

os.environ"CUDA_VISIBLE_DEVICES" = str(device_id)

3.启动成功

五、总结反思:是否可以更快发现问题?如何再次避免等。

triton启动的使用使用 nvidia-smi -l 2 监控显卡想显存, 可以发现所有模型都在往第一个gpu,gpu0内加载,发现配置config.pbtxt不生效

作者:京东科技 杨建

来源:京东云开发者社区 转载请注明来源

相关推荐
DigitalOcean9 分钟前
OpenCode AI编程实践:利用推理路由低成本开发游戏
llm·agent
xn71338 小时前
ChatGPT 生图如何自动导入 Astro 内容站:base64 桥接、frontmatter 更新和封面校验
chatgpt
带刺的坐椅19 小时前
从 Claude Code 隐私争议,看 SolonCode 的设计选择
ai·llm·agent·claudecode·soloncode·codingplan
MomentYY1 天前
Temperature:AI 的“脑洞旋钮”
前端·llm·ai编程
gptAI_plus1 天前
用 React + TypeScript 写一个世界杯淘汰赛对阵树组件
chatgpt·openai
Darling噜啦啦1 天前
上下文工程实战:从 Prompt 到 Harness 的三次 AI 工程化浪潮
llm·ai编程
Hyyy2 天前
Function Calling / Tool Use的原理和实现模式
前端·llm·ai编程
智泊AI2 天前
Loop Engineering 为什么会出现?一个 Loop 的组成部分有哪些?
llm
凌奕2 天前
别用文档约束你的 Agent:聊聊 Agent 开发流程的思想
llm·github·agent