TensorRT-LLM的k8s弹性伸缩部署方案

Scaling LLMs with NVIDIA Triton and NVIDIA TensorRT-LLM Using Kubernetes | NVIDIA Technical Blog

一共涉及4个k8s组件:

  1. Deployment:跑起来N个pod;指定NVIDIA官方的triton&trt-llm的docker image,指定好model放在哪个volume里;

  2. Service: 指向Deployment,指定port;

  3. Prometheus:跑起来1个pod;从Service的triton metrics端口(8002)那里拿到metrics指标(queue time, compute time),计算得到新指标(二者的比率);

  4. HPA(Horizontal Pod Autoscaler,水平扩展):根据Prometheus的指标数值,和预先配置好的阈值,来自动新增pod或减少pod;

还可用Grafana工具来看triton指标、trt-llm指标:

从上图可看到,TRT-LLM In-Flight Batcher,一直在0~4之间变动,中间没有变到0这种断崖,证明真的是完成一个request就加一个新的request进来。

相关推荐
架构师老Y5 小时前
008、容器化部署:Docker与Python应用打包
python·容器·架构
handsomestWei9 小时前
Docker引擎API接入配置
运维·http·docker·容器·api
键盘鼓手苏苏11 小时前
Kubernetes与GitOps高级实践
云原生·kubernetes·k8
不是书本的小明12 小时前
K8S应用优化方向
网络·容器·kubernetes
andeyeluguo14 小时前
docker总结
运维·docker·容器
SuAluvfy14 小时前
从 0 到 1:在 Windows + Docker 环境下搭建 NextChat 并接入多模型 API(踩坑实录)
docker·容器
九英里路14 小时前
cpp容器——string模拟实现
java·前端·数据结构·c++·算法·容器·字符串
尘世壹俗人15 小时前
知识点8---虚拟化编排工具Kubernetes
容器·kubernetes
冷色系里的一抹暖调15 小时前
OpenClaw Docker 部署避坑指南:服务启动成功但网页打不开?
人工智能·windows·docker·ai·容器·opencode
@土豆16 小时前
acme.sh 自动解析、申请并续签免费泛域名证书(Docker容器部署+腾讯云DNSPod)
docker·容器·腾讯云