K8s(Kubernetes)通过 HPA(Horizontal Pod Autoscaler,水平 Pod 自动伸缩) 实现核心的弹性伸缩能力,能根据 Pod 的 CPU 使用率、内存使用率或自定义指标(如 QPS、并发连接数),自动增加或减少 Pod 副本数量,从而应对业务流量的波动(如峰值扩容、低谷缩容)。
K8s 弹性伸缩的核心逻辑与实现方式
-
核心组件:HPA HPA 是 K8s 原生的伸缩控制器,通过监控目标 Pod 的资源指标,与预设阈值(如 CPU 使用率 80%)对比,自动计算并调整 Pod 副本数(
replicas),支持设置副本数的最小值(minReplicas) 和最大值(maxReplicas),避免资源浪费或过度扩容。 -
触发指标类型(3 类常用场景)
- 基础资源指标:CPU、内存使用率(最常用,依赖 K8s Metrics Server 采集数据);
- 自定义业务指标:如 API QPS、数据库连接数(需借助 Prometheus + Adapter 将指标转换为 K8s 可识别格式);
- 外部指标:如消息队列堆积数(如 Kafka Topic 分区消息数,需对接外部监控系统)。
-
典型配置示例(CPU 触发伸缩) 为名为
app-demo的 Deployment 配置 HPA,当 Pod 平均 CPU 使用率超过 80% 时扩容(最多 10 个副本),低于 40% 时缩容(最少 2 个副本):yaml
apiVersion: autoscaling/v2 kind: HorizontalPodAutoscaler metadata: name: app-demo-hpa spec: scaleTargetRef: # 关联需要伸缩的Deployment apiVersion: apps/v1 kind: Deployment name: app-demo minReplicas: 2 # 最小副本数 maxReplicas: 10 # 最大副本数 metrics: # 伸缩触发指标 - type: Resource resource: name: cpu target: type: Utilization averageUtilization: 80 # CPU使用率阈值(80%)
关键注意事项(避免伸缩失效)
- 需提前部署 Metrics Server:HPA 依赖它采集 Pod 的 CPU / 内存指标,未部署会导致 HPA 处于 "Unknown" 状态;
- Deployment 需设置 资源请求(resources.requests) :HPA 计算使用率时,需基于
requests.cpu(如请求 1 核 CPU,实际使用 0.8 核即为 80% 使用率),未设置则无法计算; - 避免 "频繁伸缩":可通过
stabilizationWindowSeconds(稳定窗口)配置,如扩容后等待 300 秒再判断是否缩容,防止流量波动导致副本数频繁变化。