K8s调度核心:从Pod分配到节点优化

在 Kubernetes(K8s)中,Pod 调度是指 K8s 系统根据特定规则和策略,将 Pod 合理分配到集群中的某个节点(Node)上运行的过程。其核心目标是确保 Pod 在合适的节点上高效、稳定地运行,充分利用集群资源。

一、调度核心组件

  • kube-scheduler :K8s 核心组件之一,负责执行调度决策。它持续监听未调度的 Pod(Pending 状态),通过一系列算法筛选出符合条件的节点,最终选择最优节点绑定 Pod。
  • 节点(Node):集群中的工作节点,提供计算、存储、网络等资源,是 Pod 的运行载体。
  • Pod:待调度的最小部署单元,包含容器及运行需求(如 CPU、内存、特殊硬件等)。

二、调度流程

kube-scheduler 的调度过程分为过滤(Filtering)打分(Scoring) 两个阶段:

  1. 过滤阶段(筛选候选节点)

    从集群所有节点中排除不符合 Pod 运行条件的节点,得到 "候选节点列表"。

    常见过滤规则(谓词):

    • 资源满足 :节点的剩余 CPU、内存等资源 ≥ Pod 请求的资源(resources.requests)。
    • 节点选择器匹配 :节点标签需满足 Pod 的 nodeSelector 规则(如 env=prod)。
    • 污点与容忍匹配:节点的污点(Taint)需被 Pod 的容忍(Toleration)允许(否则 Pod 无法调度到该节点)。
    • 端口冲突检查 :避免 Pod 所需端口在节点上已被占用(针对 hostPort 配置)。

    若过滤后无候选节点,Pod 将一直处于 Pending 状态。

  2. 打分阶段(选择最优节点)

    对候选节点按 "优先级规则" 打分(0-10 分),得分最高的节点被选为最终调度目标。

    常见打分规则(优先级):

    • 资源均衡:优先选择资源使用率较低的节点(避免节点负载过高)。
    • 亲和性偏好 :根据 Pod 或节点的亲和性规则(如 nodeAffinitypodAffinity)加分。
    • 镜像 locality:优先选择已缓存 Pod 所需镜像的节点(减少镜像拉取时间)。

三、常用调度策略与示例

1. 节点选择器(nodeSelector)

通过节点标签(Label)和 Pod 的 nodeSelector 直接绑定,简单直观

步骤

  • 给节点打标签:kubectl label nodes node-1 env=prod

  • 在 Pod 中指定选择器: yaml

    复制代码
    apiVersion: v1
    kind: Pod
    metadata:
      name: pod-with-nodeselector
    spec:
      containers:
      - name: app
        image: nginx
      nodeSelector:
        env: prod  # 仅调度到标签为 env=prod 的节点

2. 亲和性与反亲和性(Affinity/Anti-Affinity)

nodeSelector 更灵活,支持复杂规则(如 "偏好" 或 "必须" 满足、跨 Pod 关联等)。

  • 节点亲和性(nodeAffinity) :控制 Pod 调度到哪些节点(基于节点标签)。

    示例:优先调度到 disk=ssd 的节点,若不存在则允许调度到其他节点:

    yaml

    复制代码
    spec:
      affinity:
        nodeAffinity:
          preferredDuringSchedulingIgnoredDuringExecution:  # 偏好规则(非必须)
          - weight: 100  # 权重(0-100)
            preference:
              matchExpressions:
              - key: disk
                operator: In
                values: [ssd]
  • Pod 亲和性(podAffinity):让 Pod 调度到与特定 Pod 相同的节点(基于其他 Pod 的标签),适合服务间通信频繁的场景(如前端与后端)。

  • Pod 反亲和性(podAntiAffinity):让 Pod 避免调度到与特定 Pod 相同的节点,适合分散部署(如分布式数据库节点避免集中在同一节点)。

3. 污点(Taint)与容忍(Toleration)

  • 污点(Taint) :节点上的 "排斥性标签",用于阻止 Pod 调度到该节点(除非 Pod 明确 "容忍" 该污点)。

    示例:给节点添加污点(不允许普通 Pod 调度):

    bash

    复制代码
    kubectl taint nodes node-1 key=value:NoSchedule  # NoSchedule 表示拒绝未容忍的 Pod
  • 容忍(Toleration) :Pod 上的配置,声明可以 "容忍" 节点的某些污点,从而允许被调度到该节点。

    示例:Pod 容忍上述污点:

    yaml

    复制代码
    spec:
      tolerations:
      - key: "key"
        operator: "Equal"
        value: "value"
        effect: "NoSchedule"

    常见污点效果:

    • NoSchedule:仅影响新 Pod 调度,不影响已运行的 Pod。
    • NoExecute:不仅拒绝新 Pod,还会驱逐已运行的未容忍 Pod。

4. 节点亲和性与污点的区别

  • 亲和性:Pod 主动 "吸引" 到某些节点(Pod 配置规则)。
  • 污点 / 容忍:节点主动 "排斥" Pod,Pod 需主动 "允许" 被调度(节点配置污点,Pod 配置容忍)。
相关推荐
biubiubiu07067 小时前
Docker常用命令大全
docker·容器·eureka
atomLg18 小时前
k8s故障排查总结
云原生·容器·kubernetes
小阳睡不醒18 小时前
小白成长之路-k8s原理(二)
云原生·容器·kubernetes
Hello.Reader18 小时前
用 Docker 玩转 Kafka 4.0镜像选型、快速起步、配置持久化与常见坑
docker·容器·kafka
计算机小手20 小时前
内网穿透系列十二:一款基于 HTTP 传输和 SSH 加密保护的内网穿透工具 Chisel ,具备抗干扰、稳定、安全特性
经验分享·网络协议·安全·docker·开源软件
小陈运维21 小时前
Kubernetes核心-Ingress-metallb
kubernetes
Jake_sama1 天前
Prometheus+grafana 监控系统
docker
ZLRRLZ1 天前
【Docker】Docker初识
docker·容器·perl
夏目&贵志1 天前
prometheus+grafana监控系统
docker·grafana·prometheus