K8s+GPU+大模型运维主要技术点

一、K8s 运维核心

1. 六大核心组件

apiserver：集群唯一入口，鉴权、API 交互，所有组件通信中枢。

etcd：集群唯一数据库，存所有资源状态，强一致性。

scheduler：为 Pod 筛选最优节点，资源匹配、亲和性调度。

controller-manager：维持资源期望状态（副本、节点、故障修复）。

kubelet：节点代理，负责Pod创建、启停、探针、资源监控。

kube-proxy：节点网络转发，实现Service负载均衡规则。

2. 三大工作负载区别

Deployment（无状态）：随机Pod名、可随意扩缩，适合Web/微服务。

StatefulSet（有状态）：有序Pod名、固定域名、PV绑定，适合MQ/数据库。

DaemonSet：每节点部署一个Pod，适合监控、日志、网络插件。

3. Service 四种类型

ClusterIP：默认，集群内部访问。

NodePort：节点端口暴露，外网可通。

LoadBalancer：云厂商四层负载均衡。

Headless：无CLIP，DNS直连Pod，专供有状态服务。

4. 三大探针

Liveness存活探针：容器异常自动重启（防卡死）。

Readiness就绪探针：未就绪摘除流量（防报错）。

Startup启动探针：适配慢启动容器，启动完成后才开启前两个探针。

5. 节点维护命令（必考）

cordon 节点封锁（禁止新Pod调度）→ drain 驱逐旧Pod → 维护 → uncordon 恢复调度

6. 故障排查三板斧

kubectl describe pod 看事件 | kubectl logs 看日志 | kubectl top 看资源占用

二、GPU 运维必背（AI集群基础）

1. GPU vs CPU

CPU：逻辑串行、复杂任务；GPU：千核并行、擅长矩阵浮点运算，适配AI训练/推理。

2. CUDA / cuDNN

CUDA：NVIDIA并行计算框架，程序调用GPU算力。

cuDNN：深度学习加速库，优化卷积、激活等核心算子。

3. MIG 切卡

A100/H100专属，单GPU切多份独立显存核心，实现多租户隔离，提升显卡利用率。

4. 显存OOM原因&解决

原因：batch过大、模型过大、显存泄漏、多进程抢占、未优化精度。

解决：降batch、FP16/INT4量化、梯度累积、清理残留进程、开启显存优化。

5. 常用命令

nvidia-smi 状态查看 | nvidia-smi dmon 实时监控 | nvidia-smi -pl 调整功耗

三、大模型LLM运维面试核心（2026最热）

1. 训练 vs 推理运维区别

训练：多机多卡、NCCL通信、极致算力/显存/网络带宽，追求高利用率。

推理：低延迟、高吞吐、动态批处理、显存优化，追求服务稳定。

2. 主流部署框架

vLLM：PagedAttention机制，吞吐最高、延迟最低，线上首选。

TensorRT-LLM：英伟达官方极致推理加速。

TGI：HuggingFace官方，简单稳定。

3. 大模型四大优化手段（必考）

量化：FP16→INT8/INT4，显存减半，提速降本。

KV Cache：缓存对话上下文，大幅降低重复计算，提升吞吐。

动态Batch：合并瞬时小请求，拉高GPU利用率。

模型并行：超大模型张量/流水线多卡拆分部署。

4. 核心监控指标

GPU利用率70%-90%、显存使用率≤80%、P95/P99延迟、吞吐req/s、OOM报错率、NCCL通信状态

5. 常见故障

OOM：量化、降batch、查显存泄漏。

延迟高：GPU空闲、batch不合理、网络瓶颈。

NCCL报错：网卡/防火墙/多机通信异常、版本不匹配。

模型加载慢：共享存储、预加载、模型分片。

6. K8s GPU调度方案

部署NVIDIA Device Plugin 暴露GPU资源；节点标签/亲和性隔离；污点容忍区分训练/推理任务；大规模用Volcano调度器支持 gang 调度（多卡抱团启动）。

7. 模型幻觉运维解决

接入RAG检索增强、降低temperature随机值、添加事实校验、微调模型对齐。