K8s+GPU+大模型运维主要技术点

一、K8s 运维核心

1. 六大核心组件

apiserver:集群唯一入口,鉴权、API 交互,所有组件通信中枢。

etcd:集群唯一数据库,存所有资源状态,强一致性。

scheduler:为 Pod 筛选最优节点,资源匹配、亲和性调度。

controller-manager:维持资源期望状态(副本、节点、故障修复)。

kubelet:节点代理,负责Pod创建、启停、探针、资源监控。

kube-proxy:节点网络转发,实现Service负载均衡规则。

2. 三大工作负载区别

Deployment(无状态):随机Pod名、可随意扩缩,适合Web/微服务。

StatefulSet(有状态):有序Pod名、固定域名、PV绑定,适合MQ/数据库。

DaemonSet:每节点部署一个Pod,适合监控、日志、网络插件。

3. Service 四种类型

ClusterIP:默认,集群内部访问。

NodePort:节点端口暴露,外网可通。

LoadBalancer:云厂商四层负载均衡。

Headless:无CLIP,DNS直连Pod,专供有状态服务。

4. 三大探针

Liveness存活探针:容器异常自动重启(防卡死)。

Readiness就绪探针:未就绪摘除流量(防报错)。

Startup启动探针:适配慢启动容器,启动完成后才开启前两个探针。

5. 节点维护命令(必考)

cordon 节点封锁(禁止新Pod调度)→ drain 驱逐旧Pod → 维护 → uncordon 恢复调度

6. 故障排查三板斧

kubectl describe pod 看事件 | kubectl logs 看日志 | kubectl top 看资源占用

二、GPU 运维必背(AI集群基础)

1. GPU vs CPU

CPU:逻辑串行、复杂任务;GPU:千核并行、擅长矩阵浮点运算,适配AI训练/推理。

2. CUDA / cuDNN

CUDA:NVIDIA并行计算框架,程序调用GPU算力。

cuDNN:深度学习加速库,优化卷积、激活等核心算子。

3. MIG 切卡

A100/H100专属,单GPU切多份独立显存核心,实现多租户隔离,提升显卡利用率。

4. 显存OOM原因&解决

原因:batch过大、模型过大、显存泄漏、多进程抢占、未优化精度。

解决:降batch、FP16/INT4量化、梯度累积、清理残留进程、开启显存优化。

5. 常用命令

nvidia-smi 状态查看 | nvidia-smi dmon 实时监控 | nvidia-smi -pl 调整功耗

三、大模型LLM运维 面试核心(2026最热)

1. 训练 vs 推理 运维区别

训练:多机多卡、NCCL通信、极致算力/显存/网络带宽,追求高利用率。

推理:低延迟、高吞吐、动态批处理、显存优化,追求服务稳定。

2. 主流部署框架

vLLM:PagedAttention机制,吞吐最高、延迟最低,线上首选。

TensorRT-LLM:英伟达官方极致推理加速。

TGI:HuggingFace官方,简单稳定。

3. 大模型四大优化手段(必考)

量化:FP16→INT8/INT4,显存减半,提速降本。

KV Cache:缓存对话上下文,大幅降低重复计算,提升吞吐。

动态Batch:合并瞬时小请求,拉高GPU利用率。

模型并行:超大模型张量/流水线多卡拆分部署。

4. 核心监控指标

GPU利用率70%-90%、显存使用率≤80%、P95/P99延迟、吞吐req/s、OOM报错率、NCCL通信状态

5. 常见故障

OOM:量化、降batch、查显存泄漏。

延迟高:GPU空闲、batch不合理、网络瓶颈。

NCCL报错:网卡/防火墙/多机通信异常、版本不匹配。

模型加载慢:共享存储、预加载、模型分片。

6. K8s GPU调度方案

部署NVIDIA Device Plugin 暴露GPU资源;节点标签/亲和性隔离;污点容忍区分训练/推理任务;大规模用Volcano调度器支持 gang 调度(多卡抱团启动)。

7. 模型幻觉运维解决

接入RAG检索增强、降低temperature随机值、添加事实校验、微调模型对齐。

相关推荐
Avan_菜菜3 小时前
FRP 内网穿透完整实战:从 HTTP 映射到 HTTPS 自签代理
运维·nginx·https
程序员老赵4 小时前
10 分钟部署 OpenCode:Docker 一键安装,浏览器打开就能用 AI 写代码(附完整命令与排错)
docker·容器·ai编程
SelectDB1 天前
Litefuse 开源并推出单进程轻量模式,25 秒就能跑起来的 Agent 可观测与评估平台
运维·后端·自动化运维
XIAOHEZIcode3 天前
Linux系统鼠标偏移常见原因以及修复方案
linux·运维·游戏
用户0328472220703 天前
如何搭建本地yum源(上)
运维
武子康3 天前
调查研究-183 Apple container:Mac 上用轻量 VM 跑 Linux 容器,Swift 会改写本地容器体验吗?
docker·容器·apple
大树886 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
摇滚侠6 天前
Linux CentOS7 rpm 安装 MySQL 5.7
linux·运维·mysql
霸道流氓气质6 天前
领域驱动设计(DDD)在 Spring Boot 微服务中的实践指南
运维·spring boot·微服务
Inhand陈工6 天前
基于台达PLC与映翰通IG502的智慧水产养殖精准投喂与远程运维解决方案
运维·人工智能·物联网·阿里云·信息与通信