TensorRT-LLM的k8s弹性伸缩部署方案

Scaling LLMs with NVIDIA Triton and NVIDIA TensorRT-LLM Using Kubernetes | NVIDIA Technical Blog

一共涉及4个k8s组件:

  1. Deployment:跑起来N个pod;指定NVIDIA官方的triton&trt-llm的docker image,指定好model放在哪个volume里;

  2. Service: 指向Deployment,指定port;

  3. Prometheus:跑起来1个pod;从Service的triton metrics端口(8002)那里拿到metrics指标(queue time, compute time),计算得到新指标(二者的比率);

  4. HPA(Horizontal Pod Autoscaler,水平扩展):根据Prometheus的指标数值,和预先配置好的阈值,来自动新增pod或减少pod;

还可用Grafana工具来看triton指标、trt-llm指标:

从上图可看到,TRT-LLM In-Flight Batcher,一直在0~4之间变动,中间没有变到0这种断崖,证明真的是完成一个request就加一个新的request进来。

相关推荐
诡异森林。1 小时前
Docker--Docker网络原理
网络·docker·容器
matrixlzp2 小时前
K8S Service 原理、案例
云原生·容器·kubernetes
angushine3 小时前
让Docker端口映射受Firewall管理而非iptables
运维·docker·容器
SimonLiu0095 小时前
清理HiNas(海纳斯) Docker日志并限制日志大小
java·docker·容器
高峰君主8 小时前
Docker容器持久化
docker·容器·eureka
能来帮帮蒟蒻吗8 小时前
Docker安装(Ubuntu22版)
笔记·学习·spring cloud·docker·容器
言之。12 小时前
别学了,打会王者吧
java·python·mysql·容器·spark·php·html5
秦始皇爱找茬16 小时前
docker部署Jenkins工具
docker·容器·jenkins
樽酒ﻬق19 小时前
Kubernetes 常用运维命令整理
运维·容器·kubernetes
Golinie20 小时前
Docker底层原理浅析 | namespace+cgroups+文件系统
docker·容器·文件系统·cgroups·unionfs