云原生 AI 推理部署:Kubernetes 实战指南
一、为什么在 K8s 上部署 AI?
大模型时代面临 GPU 管理、弹性扩缩容、多版本管理等挑战。Kubernetes 正是解决这些问题的答案。
二、GPU 资源管理
Kubernetes 通过 Device Plugin 管理 GPU:
- time-slicing:共享 GPU
- MIG:A100/H100 物理隔离
- 动态 MIG:按需分配分区
三、推理服务框架
| 框架 | 特点 |
|---|---|
| TorchServe | PyTorch 官方 |
| Triton | NVIDIA 多框架支持 |
| vLLM | LLM 专优 |
| BentoML | Python 原生 |
四、自动扩缩容
yaml
metrics:
- type: Resource
resource:
name: nvidia.com/gpu
target:
type: Utilization
averageUtilization: 70
五、主流平台
- KubeFlow:最完整 ML 平台
- KServe:Serverless 推理
- Ray Serve:Python 原生,动态批处理
六、运维监控
DCGM Exporter + Prometheus 监控 GPU,EFK 收集日志,Kubecost 跟踪成本。
本文为个人学习整理,欢迎交流讨论。