TensorRT-LLM的k8s弹性伸缩部署方案

Scaling LLMs with NVIDIA Triton and NVIDIA TensorRT-LLM Using Kubernetes | NVIDIA Technical Blog

一共涉及4个k8s组件:

  1. Deployment:跑起来N个pod;指定NVIDIA官方的triton&trt-llm的docker image,指定好model放在哪个volume里;

  2. Service: 指向Deployment,指定port;

  3. Prometheus:跑起来1个pod;从Service的triton metrics端口(8002)那里拿到metrics指标(queue time, compute time),计算得到新指标(二者的比率);

  4. HPA(Horizontal Pod Autoscaler,水平扩展):根据Prometheus的指标数值,和预先配置好的阈值,来自动新增pod或减少pod;

还可用Grafana工具来看triton指标、trt-llm指标:

从上图可看到,TRT-LLM In-Flight Batcher,一直在0~4之间变动,中间没有变到0这种断崖,证明真的是完成一个request就加一个新的request进来。

相关推荐
看-清14 分钟前
Docker离线安装部署xxl-job流程
运维·docker·容器
建群新人小猿27 分钟前
陀螺匠企业助手-我的日程
android·大数据·运维·开发语言·容器
孤岛悬城1 小时前
47 Docker镜像编排
docker·容器·云计算
忙里偷闲学python1 小时前
ceph介绍和安装
linux·ceph·kubernetes
隔壁阿布都2 小时前
Docker 安装 MySQL 8.0
mysql·docker·容器
摇滚侠4 小时前
40分钟的Docker实战攻略,一期视频精通Docker
运维·docker·容器
忍冬行者4 小时前
kubeadm安装的k8s集群涉及etcd数据库的参数优化
数据库·kubernetes·etcd
加藤不太惠4 小时前
docker简单了解使用
运维·docker·容器
<e^πi+1=0>4 小时前
Docker部署Lighthouse CI Server总结
ci/cd·docker·容器
xiaoshujiaa5 小时前
微服务与大数据场景下的Java面试实录:从Spring Cloud到Flink的层层拷问
大数据·spring cloud·微服务·flink·kubernetes·java面试·resilience4j