TensorRT-LLM的k8s弹性伸缩部署方案

Scaling LLMs with NVIDIA Triton and NVIDIA TensorRT-LLM Using Kubernetes | NVIDIA Technical Blog

一共涉及4个k8s组件:

  1. Deployment:跑起来N个pod;指定NVIDIA官方的triton&trt-llm的docker image,指定好model放在哪个volume里;

  2. Service: 指向Deployment,指定port;

  3. Prometheus:跑起来1个pod;从Service的triton metrics端口(8002)那里拿到metrics指标(queue time, compute time),计算得到新指标(二者的比率);

  4. HPA(Horizontal Pod Autoscaler,水平扩展):根据Prometheus的指标数值,和预先配置好的阈值,来自动新增pod或减少pod;

还可用Grafana工具来看triton指标、trt-llm指标:

从上图可看到,TRT-LLM In-Flight Batcher,一直在0~4之间变动,中间没有变到0这种断崖,证明真的是完成一个request就加一个新的request进来。

相关推荐
码点滴1 小时前
Workload 自动化进化论:从手动运维到 AI 驱动的 Kubernetes 智能管控
运维·人工智能·kubernetes·自动化·workload
darkdragonking1 小时前
Docker(五)OpenEuler22.03 安装docker ce、排坑
运维·docker·容器
Waay4 小时前
图文详解|K8s Pod内部结构
docker·云原生·kubernetes
码点滴4 小时前
CRI-O选型与容器运行时标准
开发语言·人工智能·架构·kubernetes·cri-o
万里侯6 小时前
Kubernetes成本优化:降低云原生基础设施成本的完整指南
微服务·容器·k8s
r-t-H8 小时前
KVM虚拟化与Docker基础实践-第二章
阿里云·docker·容器
牛奶咖啡1310 小时前
k8s容器编排技术实践——OpenEuler安装部署k8s
kubernetes·信创·containerd配置加速器·openeuler安装k8s·k8s的常见安装方式·彻底关闭swap·工作节点使用kubectl
老码观察10 小时前
K8s 容器化部署的宿主机资源规划的踩坑实录
docker·容器·kubernetes
我是谁??10 小时前
【6】基于 Docker + YOLOv8 的模型部署实战(GTX1660S + Ubuntu22.04)
yolo·docker·容器
密瓜智能10 小时前
HAMi 正式接入 Kubernetes DRA:下一代 GPU 资源模型实践指南
云原生·容器·kubernetes