一、K8s 运维核心
1. 六大核心组件
apiserver:集群唯一入口,鉴权、API 交互,所有组件通信中枢。
etcd:集群唯一数据库,存所有资源状态,强一致性。
scheduler:为 Pod 筛选最优节点,资源匹配、亲和性调度。
controller-manager:维持资源期望状态(副本、节点、故障修复)。
kubelet:节点代理,负责Pod创建、启停、探针、资源监控。
kube-proxy:节点网络转发,实现Service负载均衡规则。
2. 三大工作负载区别
Deployment(无状态):随机Pod名、可随意扩缩,适合Web/微服务。
StatefulSet(有状态):有序Pod名、固定域名、PV绑定,适合MQ/数据库。
DaemonSet:每节点部署一个Pod,适合监控、日志、网络插件。
3. Service 四种类型
ClusterIP:默认,集群内部访问。
NodePort:节点端口暴露,外网可通。
LoadBalancer:云厂商四层负载均衡。
Headless:无CLIP,DNS直连Pod,专供有状态服务。
4. 三大探针
Liveness存活探针:容器异常自动重启(防卡死)。
Readiness就绪探针:未就绪摘除流量(防报错)。
Startup启动探针:适配慢启动容器,启动完成后才开启前两个探针。
5. 节点维护命令(必考)
cordon 节点封锁(禁止新Pod调度)→ drain 驱逐旧Pod → 维护 → uncordon 恢复调度
6. 故障排查三板斧
kubectl describe pod 看事件 | kubectl logs 看日志 | kubectl top 看资源占用
二、GPU 运维必背(AI集群基础)
1. GPU vs CPU
CPU:逻辑串行、复杂任务;GPU:千核并行、擅长矩阵浮点运算,适配AI训练/推理。
2. CUDA / cuDNN
CUDA:NVIDIA并行计算框架,程序调用GPU算力。
cuDNN:深度学习加速库,优化卷积、激活等核心算子。
3. MIG 切卡
A100/H100专属,单GPU切多份独立显存核心,实现多租户隔离,提升显卡利用率。
4. 显存OOM原因&解决
原因:batch过大、模型过大、显存泄漏、多进程抢占、未优化精度。
解决:降batch、FP16/INT4量化、梯度累积、清理残留进程、开启显存优化。
5. 常用命令
nvidia-smi 状态查看 | nvidia-smi dmon 实时监控 | nvidia-smi -pl 调整功耗
三、大模型LLM运维 面试核心(2026最热)
1. 训练 vs 推理 运维区别
训练:多机多卡、NCCL通信、极致算力/显存/网络带宽,追求高利用率。
推理:低延迟、高吞吐、动态批处理、显存优化,追求服务稳定。
2. 主流部署框架
vLLM:PagedAttention机制,吞吐最高、延迟最低,线上首选。
TensorRT-LLM:英伟达官方极致推理加速。
TGI:HuggingFace官方,简单稳定。
3. 大模型四大优化手段(必考)
量化:FP16→INT8/INT4,显存减半,提速降本。
KV Cache:缓存对话上下文,大幅降低重复计算,提升吞吐。
动态Batch:合并瞬时小请求,拉高GPU利用率。
模型并行:超大模型张量/流水线多卡拆分部署。
4. 核心监控指标
GPU利用率70%-90%、显存使用率≤80%、P95/P99延迟、吞吐req/s、OOM报错率、NCCL通信状态
5. 常见故障
OOM:量化、降batch、查显存泄漏。
延迟高:GPU空闲、batch不合理、网络瓶颈。
NCCL报错:网卡/防火墙/多机通信异常、版本不匹配。
模型加载慢:共享存储、预加载、模型分片。
6. K8s GPU调度方案
部署NVIDIA Device Plugin 暴露GPU资源;节点标签/亲和性隔离;污点容忍区分训练/推理任务;大规模用Volcano调度器支持 gang 调度(多卡抱团启动)。
7. 模型幻觉运维解决
接入RAG检索增强、降低temperature随机值、添加事实校验、微调模型对齐。