TensorRT-LLM的k8s弹性伸缩部署方案

Scaling LLMs with NVIDIA Triton and NVIDIA TensorRT-LLM Using Kubernetes | NVIDIA Technical Blog

一共涉及4个k8s组件:

  1. Deployment:跑起来N个pod;指定NVIDIA官方的triton&trt-llm的docker image,指定好model放在哪个volume里;

  2. Service: 指向Deployment,指定port;

  3. Prometheus:跑起来1个pod;从Service的triton metrics端口(8002)那里拿到metrics指标(queue time, compute time),计算得到新指标(二者的比率);

  4. HPA(Horizontal Pod Autoscaler,水平扩展):根据Prometheus的指标数值,和预先配置好的阈值,来自动新增pod或减少pod;

还可用Grafana工具来看triton指标、trt-llm指标:

从上图可看到,TRT-LLM In-Flight Batcher,一直在0~4之间变动,中间没有变到0这种断崖,证明真的是完成一个request就加一个新的request进来。

相关推荐
掘根1 小时前
【Docker】网络
网络·docker·容器
高旭博2 小时前
10. kubernetes资源——statefulset有状态负载
云原生·容器·kubernetes
_Walli_3 小时前
k8s集群搭建(七)-------- 微服务间的调用
微服务·容器·kubernetes
马达加斯加D3 小时前
k8s --- resource: Pod, ReplicaSet and Deployment
云原生·容器·kubernetes
Candice_jy7 小时前
vscode运行ipynb文件:使用docker中的虚拟环境
服务器·ide·vscode·python·docker·容器·编辑器
roman_日积跬步-终至千里9 小时前
【Docker下部署高可用】StarRocks 存算一体架构高可用部署要点
docker·容器·架构
zmjjdank1ng10 小时前
k8s问答题(二)
云原生·容器·kubernetes
小坏讲微服务20 小时前
五分钟使用 Docker-compose搭建 Redis 8.0 中间件
运维·redis·docker·中间件·容器·kubernetes·k8s
Aimyon_3621 小时前
MinerU Docker自定义版本部署
运维·docker·容器
梁正雄1 天前
19、docker跨主机网络 Overlay\Underlay
网络·docker·容器