TensorRT-LLM的k8s弹性伸缩部署方案

Scaling LLMs with NVIDIA Triton and NVIDIA TensorRT-LLM Using Kubernetes | NVIDIA Technical Blog

一共涉及4个k8s组件:

  1. Deployment:跑起来N个pod;指定NVIDIA官方的triton&trt-llm的docker image,指定好model放在哪个volume里;

  2. Service: 指向Deployment,指定port;

  3. Prometheus:跑起来1个pod;从Service的triton metrics端口(8002)那里拿到metrics指标(queue time, compute time),计算得到新指标(二者的比率);

  4. HPA(Horizontal Pod Autoscaler,水平扩展):根据Prometheus的指标数值,和预先配置好的阈值,来自动新增pod或减少pod;

还可用Grafana工具来看triton指标、trt-llm指标:

从上图可看到,TRT-LLM In-Flight Batcher,一直在0~4之间变动,中间没有变到0这种断崖,证明真的是完成一个request就加一个新的request进来。

相关推荐
正怒月神40 分钟前
docker-compose 启动 elk
elk·docker·容器
低调的JVM2 小时前
K8s环境下Java-Agent自动注入方案详解
kubernetes·软件监控·k8s注入
-L712 小时前
【Kubernetes】常见面试题汇总(十九)
云原生·容器·kubernetes
Gss77715 小时前
Docker 公有仓库使用、Docker 私有仓库(Registry)使用总结
docker·容器
暴富奥利奥15 小时前
完成docker方式的ros环境配置
linux·学习·docker·容器
红尘客栈216 小时前
K8s-kubeadmin 1.28安装
java·网络·kubernetes
红尘客栈216 小时前
K8S基本命令操作
linux·容器·kubernetes
我好饿116 小时前
部署k8s集群+containerd+dashboard
云原生·容器·kubernetes
hello_25016 小时前
动手模拟k8s网络-vxlan模式
网络·容器·kubernetes
海海思思17 小时前
解决Docker "exec format error":架构不匹配问题分析
docker·容器