记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队

一、问题是怎么发现的

部署chatglm2和llama2到一个4*V100的GPU机器上遇到问题

config.pbtxt

中设置模型分别在指定gpu上部署实例配置不生效

如以下配置为在gpu0上部署本模型,部署count=1个实例,在gpu1上部署本模型,部署count=2个实例

instance_group { count: 1 kind: KIND_GPU gpus: \[ 0 },

{ count: 2

kind: KIND_GPU

gpus: 1 } ]

部署时发现,所有模型实例都会被部署到gpu0上面, 由于gpu只有16g显存,在部署第一个模型实例成功后,第二个模型实例也会往gpu0上进行加载,最终导致cuda out of memery.

网上搜索发现有人遇到同样的问题,链接: github.com/triton-infe...

二、问题带来的影响

三、排查问题的详细过程

大佬回答解决方案:

四、如何解决问题

1.在model.py手动获取config.pbtxt配置的gpu编号gpus:0

instance_group [

{

count: 1

kind: KIND_GPU

gpus: 0

}

]

2.设置可用的GPU编号

os.environ"CUDA_VISIBLE_DEVICES" = str(device_id)

3.启动成功

五、总结反思:是否可以更快发现问题?如何再次避免等。

triton启动的使用使用 nvidia-smi -l 2 监控显卡想显存, 可以发现所有模型都在往第一个gpu,gpu0内加载,发现配置config.pbtxt不生效

作者:京东科技 杨建

来源:京东云开发者社区 转载请注明来源

相关推荐
慢慢向上的蜗牛15 分钟前
Qwen3-0.6B ONNX(KV-Cache)模型部署
llm·onnx·文本生成·自回归·kv-cache
战族狼魂21 分钟前
AI巨头IPO热潮引爆资本市场
人工智能·chatgpt·大模型·大语言模型·ai工程化
杨杨杨大侠24 分钟前
ChatGPT 订阅与客户端下载指南
chatgpt
极客老王说Agent1 小时前
即时配送每日账单人工对账全攻略:结算误差如何快速排查修正?
大数据·人工智能·ai·chatgpt
Java陈序员2 小时前
一键测算!一款筛选本机可流畅运行的大模型终端工具!
rust·llm
AI工程效率栈2 小时前
Agent 能执行代码之后,团队最该先设计的是运行时边界
chatgpt
Together_CZ2 小时前
OpenCV 5.0 重磅发布:全面技术深度解析
图像处理·人工智能·opencv·计算机视觉·llm·dnn·推理
qq_366566502 小时前
短视频批量翻译+配音自动化:Python脚本处理TikTok/Reels/Shorts全流程
python·chatgpt·自动化·音视频·媒体
LaughingZhu3 小时前
Product Hunt 每日热榜 | 2026-06-10
前端·人工智能·经验分享·chatgpt·html
呆呆敲代码的小Y3 小时前
CodeGraph 使用教程:专为代码库打造的知识图谱
人工智能·ai·llm·知识图谱·代码库·codegraph·代码知识库