K8s 容器性能问题排查与诊断指南

在 K8s 集群中排查容器化安全产品的性能问题或故障时，可按以下结构化方法进行：

一、基础环境检查

集群状态检查

bash 复制代码

kubectl get nodes  # 检查节点健康状态
kubectl get pods -A  # 查看所有命名空间的 Pod 状态
kubectl get events -A  # 查看集群事件（关注 Warning 及 Error 级别）

节点资源使用情况

bash 复制代码

# 使用 metrics-server 查看节点资源
kubectl top nodes

# 直接登录节点检查（需安装 htop 等工具）
kubectl debug node/<node-name> -it --image=ubuntu

二、定位问题 Pod/容器

资源消耗分析

bash 复制代码

# 查看 Pod 资源使用情况
kubectl top pods -A --containers

# 筛选高资源消耗的 Pod（示例：CPU > 200m）
kubectl top pods -A --sort-by='cpu' | grep -E '([0-9]+)m' | awk '$3 > 200 {print}'

容器日志分析

bash 复制代码

# 获取容器日志（最近 100 行）
kubectl logs <pod-name> -c <container-name> --tail=100

# 查看日志实时流（用于排查运行时错误）
kubectl logs -f <pod-name> -c <container-name>

# 多容器 Pod 需指定容器名
kubectl logs <pod-name> -c security-container

三、深入容器内部诊断

容器进程与资源使用

bash 复制代码

# 进入容器内部
kubectl exec -it <pod-name> -c <container-name> -- bash

# 检查容器内进程资源占用（需安装工具）
ps aux --sort=-%cpu  # 查看 CPU 占用最高的进程
free -h  # 查看内存使用情况

容器资源限制检查

bash 复制代码

# 查看 Pod 的资源请求与限制
kubectl describe pod <pod-name> | grep -A 5 "Containers:"

四、性能分析工具

使用 kubectl describe 获取详细信息

bash 复制代码

kubectl describe pod <pod-name>  # 查看 Pod 事件、状态、条件
kubectl describe node <node-name>  # 查看节点状态及调度信息

使用 kubectl debug 创建诊断容器

bash 复制代码

# 创建与故障 Pod 共享网络/卷的诊断容器
kubectl debug -it <pod-name> --image=nicolaka/netshoot --target=<container-name>

# 在诊断容器中执行网络工具（如 ping、traceroute）

使用 kubectl attach 查看实时输出

bash 复制代码

kubectl attach <pod-name> -c <container-name> -i  # 用于查看启动中的容器输出

五、网络与存储问题排查

网络连通性测试

bash 复制代码

# 使用 busybox 测试网络连通性
kubectl run -it --rm busybox --image=busybox:1.36 -- sh
ping <target-ip>
telnet <target-ip> <port>

# 检查服务可达性
kubectl run -it --rm curl --image=curlimages/curl -- sh
curl <service-name>.<namespace>:<port>

存储问题排查

bash 复制代码

# 检查 PersistentVolumeClaims 状态
kubectl get pvc -A

# 查看存储卷挂载情况
kubectl describe pod <pod-name> | grep -A 10 "Volumes:"

六、高级性能分析（需安装工具）

使用 pprof 分析 Go 应用性能（针对 Golang 开发的安全组件）

bash 复制代码

# 需在容器内暴露 pprof 端点（示例）
kubectl port-forward <pod-name> 6060:6060
go tool pprof http://localhost:6060/debug/pprof/profile

使用 sysdig 进行系统级监控

bash 复制代码

# 在节点上安装 sysdig 并捕获容器活动
kubectl debug node/<node-name> -it --image=sysdig/sysdig
sysdig -c topprocs_cpu container.name=~<container-name>

使用 kubectl get --raw 获取指标数据

bash 复制代码

# 获取 Prometheus 格式的指标（需安装 metrics-server）
kubectl get --raw /apis/metrics.k8s.io/v1beta1/nodes/<node-name>

七、K8s 特定问题排查

OOMKilled 检查

bash 复制代码

# 查看 Pod 是否因内存溢出被杀死
kubectl describe pod <pod-name> | grep -i "oomkilled"

资源限制与 QoS 类

bash 复制代码

# 检查 Pod 的 QoS 类（Guaranteed/Burstable/BestEffort）
kubectl get pod <pod-name> -o jsonpath='{.status.qosClass}'

节点压力与驱逐

bash 复制代码

# 查看节点是否存在资源压力
kubectl describe node <node-name> | grep -A 5 "Conditions:"

八、自动化排查工具

使用 kube-bench 检查安全配置

bash 复制代码

# 检查 K8s 集群是否符合 CIS 基准
kubectl apply -f https://github.com/aquasecurity/kube-bench/releases/latest/download/kube-bench-cronjob.yaml

使用 kube-state-metrics 和 Prometheus 监控

bash 复制代码

# 部署 kube-state-metrics 和 Prometheus
helm install prometheus prometheus-community/prometheus

# 查询高资源消耗的 Pod
sum(rate(container_cpu_usage_seconds_total{namespace="security"}[5m])) by (pod) > 0.5

九、故障处理与优化建议

临时处理措施
- 调整资源配额：kubectl edit deployment <deployment-name> 增加 resources.limits
- 重启 Pod：kubectl delete pod <pod-name>（触发自动重建）
- 水平扩展：kubectl scale deployment <deployment-name> --replicas=3
长期优化方向
- 优化容器镜像（减少不必要进程）
- 调整安全产品参数（如日志采样率、检测频率）
- 升级安全产品版本（修复已知性能问题）
- 实施 HPA（Horizontal Pod Autoscaler）自动扩缩容
- 优化 K8s 节点资源分配（避免资源过载）

十、案例分析示例

场景：安全扫描容器 CPU 使用率持续超过 90%
排查步骤：

kubectl top pods 定位高 CPU 容器
kubectl exec 进入容器，使用 top 发现扫描进程占用过高
检查容器资源限制，发现未设置 resources.limits.cpu
查看扫描配置，发现扫描频率过高且未设置并发限制
调整扫描参数并设置 CPU 限制为 200m
重启容器后性能恢复正常

通过以上系统化方法，可快速定位并解决 K8s 环境中安全产品的性能与故障问题。