K8s+GPU+大模型运维主要技术点

一、K8s 运维核心

1. 六大核心组件

apiserver:集群唯一入口,鉴权、API 交互,所有组件通信中枢。

etcd:集群唯一数据库,存所有资源状态,强一致性。

scheduler:为 Pod 筛选最优节点,资源匹配、亲和性调度。

controller-manager:维持资源期望状态(副本、节点、故障修复)。

kubelet:节点代理,负责Pod创建、启停、探针、资源监控。

kube-proxy:节点网络转发,实现Service负载均衡规则。

2. 三大工作负载区别

Deployment(无状态):随机Pod名、可随意扩缩,适合Web/微服务。

StatefulSet(有状态):有序Pod名、固定域名、PV绑定,适合MQ/数据库。

DaemonSet:每节点部署一个Pod,适合监控、日志、网络插件。

3. Service 四种类型

ClusterIP:默认,集群内部访问。

NodePort:节点端口暴露,外网可通。

LoadBalancer:云厂商四层负载均衡。

Headless:无CLIP,DNS直连Pod,专供有状态服务。

4. 三大探针

Liveness存活探针:容器异常自动重启(防卡死)。

Readiness就绪探针:未就绪摘除流量(防报错)。

Startup启动探针:适配慢启动容器,启动完成后才开启前两个探针。

5. 节点维护命令(必考)

cordon 节点封锁(禁止新Pod调度)→ drain 驱逐旧Pod → 维护 → uncordon 恢复调度

6. 故障排查三板斧

kubectl describe pod 看事件 | kubectl logs 看日志 | kubectl top 看资源占用

二、GPU 运维必背(AI集群基础)

1. GPU vs CPU

CPU:逻辑串行、复杂任务;GPU:千核并行、擅长矩阵浮点运算,适配AI训练/推理。

2. CUDA / cuDNN

CUDA:NVIDIA并行计算框架,程序调用GPU算力。

cuDNN:深度学习加速库,优化卷积、激活等核心算子。

3. MIG 切卡

A100/H100专属,单GPU切多份独立显存核心,实现多租户隔离,提升显卡利用率。

4. 显存OOM原因&解决

原因:batch过大、模型过大、显存泄漏、多进程抢占、未优化精度。

解决:降batch、FP16/INT4量化、梯度累积、清理残留进程、开启显存优化。

5. 常用命令

nvidia-smi 状态查看 | nvidia-smi dmon 实时监控 | nvidia-smi -pl 调整功耗

三、大模型LLM运维 面试核心(2026最热)

1. 训练 vs 推理 运维区别

训练:多机多卡、NCCL通信、极致算力/显存/网络带宽,追求高利用率。

推理:低延迟、高吞吐、动态批处理、显存优化,追求服务稳定。

2. 主流部署框架

vLLM:PagedAttention机制,吞吐最高、延迟最低,线上首选。

TensorRT-LLM:英伟达官方极致推理加速。

TGI:HuggingFace官方,简单稳定。

3. 大模型四大优化手段(必考)

量化:FP16→INT8/INT4,显存减半,提速降本。

KV Cache:缓存对话上下文,大幅降低重复计算,提升吞吐。

动态Batch:合并瞬时小请求,拉高GPU利用率。

模型并行:超大模型张量/流水线多卡拆分部署。

4. 核心监控指标

GPU利用率70%-90%、显存使用率≤80%、P95/P99延迟、吞吐req/s、OOM报错率、NCCL通信状态

5. 常见故障

OOM:量化、降batch、查显存泄漏。

延迟高:GPU空闲、batch不合理、网络瓶颈。

NCCL报错:网卡/防火墙/多机通信异常、版本不匹配。

模型加载慢:共享存储、预加载、模型分片。

6. K8s GPU调度方案

部署NVIDIA Device Plugin 暴露GPU资源;节点标签/亲和性隔离;污点容忍区分训练/推理任务;大规模用Volcano调度器支持 gang 调度(多卡抱团启动)。

7. 模型幻觉运维解决

接入RAG检索增强、降低temperature随机值、添加事实校验、微调模型对齐。

相关推荐
爱吃土豆的马铃薯ㅤㅤㅤㅤㅤㅤㅤㅤㅤ1 小时前
nginx部署教程
运维·网络·nginx
b***25111 小时前
电池组PACK自动化生产线:从电芯到成品的精密制造之路
运维·自动化·制造
云边云科技_云网融合2 小时前
AI 网关:企业 AI 时代的 “智能交通枢纽“—— 六大行业典型场景深度解析
大数据·运维·人工智能
明夜之约2 小时前
Linux 系统命令使用速查手册
linux·运维
武子康2 小时前
调查研究-153 Cloudflare 能部署网站吗?2026 年完整对比 Vercel / Netlify / 自建服务器
大数据·运维·服务器·人工智能·部署·devops·opc
utf8mb4安全女神3 小时前
子网划分【概念+实操+理解】
运维·服务器·网络
xcLeigh3 小时前
KES数据库运维监控与故障排查实战
运维·数据库·sql·故障排查·运维监控·kes
比昨天多敲两行3 小时前
Linux信号
linux·运维·服务器
PascalMing3 小时前
K8s集群安装部署完整指南(Ubuntu24.04+K8s1.28)
云原生·容器·kubernetes