Kubernetes 节点 DNS 解析异常问题排查与解决方案

因为 NodeLocal DNSCache 未加载更新后的节点 resolv.conf 导致 Pod 无法解析外部域名


一、问题现象

在 Kubernetes 集群中,部署的应用 Pod 在调度到 worker4 节点 时可以正常访问外部服务 qyapi.weixin.qq.com,但当调度到 worker3 节点时,Java 应用抛出如下异常:

csharp 复制代码
Caused by: java.net.UnknownHostException: qyapi.weixin.qq.com

经初步排查:

  • worker3 节点本身可通过 ping qyapi.weixin.qq.com 正常解析并连通;
  • worker4 节点无此问题;
  • 两节点操作系统及网络环境基本一致。

二、根因分析

1. 集群启用了 NodeLocal DNSCache

通过检查发现,集群部署了 NodeLocal DNSCache (DaemonSet,标签 k8s-app=nodelocaldns),用于优化 Pod 的 DNS 查询性能。其工作原理如下:

  • 每个节点运行一个本地 CoreDNS 实例,监听 IP(通常为 169.254.20.10);
  • Pod 的 /etc/resolv.confnameserver 被设置为此本地地址;
  • NodeLocal DNSCache 将集群内部域名请求转发给 CoreDNS,外部域名请求则转发给节点 /etc/resolv.conf 中配置的上游 DNS 服务器

2. NodeLocal DNSCache 仅在启动时读取 /etc/resolv.conf

  • NodeLocal DNSCache Pod 在启动时读取所在节点的 /etc/resolv.conf,获取上游 DNS 配置;
  • 不会动态监听或重新加载该文件的后续变更
  • 若节点的 DNS 配置发生变化(如修复错误配置),必须重启 NodeLocal DNSCache Pod 才能生效。

3. 问题发生过程

  1. worker3 节点初始的 /etc/resolv.conf 配置有误(如 nameserver 不可达);
  2. NodeLocal DNSCache Pod 启动时加载了错误的上游 DNS 配置;
  3. 即使后续手动修正了 worker3 的 /etc/resolv.conf,NodeLocal DNSCache 仍使用旧配置;
  4. 导致调度到 worker3 的 Pod 无法解析外部域名,而节点自身(直接使用 /etc/resolv.conf)可正常解析。

三、解决方案

✅ 步骤 1:确保节点 DNS 配置正确

将 worker3 的 /etc/resolv.conf 修改为与正常节点(如 worker4)一致,例如:

arduino 复制代码
// 注意这里,修改为与正常节点(如 worker4)一致
nameserver 114.114.114.114

💡 建议通过系统级网络管理工具(如 NetworkManager、systemd-resolved)进行持久化配置,避免被 DHCP 或云平台覆盖。

✅ 步骤 2:重启 NodeLocal DNSCache Pod

强制重建 worker3 上的 NodeLocal DNSCache 实例,使其加载最新的 /etc/resolv.conf

ini 复制代码
kubectl delete pods -n kube-system -l k8s-app=nodelocaldns

Kubernetes DaemonSet 控制器会自动在所有节点(包括 worker3)上创建新的 Pod。

✅ 步骤 3:验证修复结果

在 worker3 上部署测试 Pod,验证外部域名解析:

ini 复制代码
kubectl run debug --image=busybox:1.28 --rm -it --restart=Never \
  --overrides='{"spec":{"nodeSelector":{"kubernetes.io/hostname":"worker3"}}}' \
  -- nslookup qyapi.weixin.qq.com

预期输出应包含有效的 IP 地址,无超时或错误。


四、经验总结与建议

项目 说明
关键认知 NodeLocal DNSCache 不会动态重载 /etc/resolv.conf,修改后必须重启 Pod
运维规范 修改节点 DNS 配置后,应同步执行 kubectl delete pod -n kube-system -l k8s-app=nodelocaldns
配置持久化 避免直接编辑 /etc/resolv.conf,推荐使用系统网络管理工具或云平台配置
监控建议 可通过 Prometheus + CoreDNS 指标监控 DNS 解析失败率,提前发现类似问题

五、附录:相关组件说明

NodeLocal DNSCache 架构简图

scss 复制代码
Pod (nameserver: 169.254.20.10)
        ↓
NodeLocal DNSCache (本地 CoreDNS, 运行于每个节点)
        ↓
上游 DNS(来自节点 /etc/resolv.conf)
        ↓
公网/内网 DNS 服务器

查看 NodeLocal DNSCache 配置

csharp 复制代码
# 查看 ConfigMap
kubectl get cm nodelocaldns -n kube-system -o yaml

# 查看 Pod 状态
kubectl get pods -n kube-system -l k8s-app=nodelocaldns -o wide

记录人 :壹米饭 记录时间 :2025年12月5日
适用环境:启用 NodeLocal DNSCache 的 Kubernetes 集群(v1.18+)

📌 一句话总结:改了节点 DNS 配置?别忘了重启 nodelocaldns!

相关推荐
卜锦元1 分钟前
Golang后端性能优化手册(第四章:异步处理与消息队列)
开发语言·后端·docker·容器·性能优化·golang·团队开发
汪碧康2 分钟前
【k8s-1.34.2安装部署】二.kubernets软件、证书、配置、脚本等文件准备
云原生·容器·kubernetes·xkube·k8s管理平台·k8s安装部署·k8s dashboard
ldj20202 分钟前
docker-compose对比k8s
云原生·容器·kubernetes
BD_Marathon19 分钟前
Spring是什么
java·后端·spring
啊勇的编程论坛20 分钟前
DeepSeek + Kubernetes 全栈运维赋能指南:智能化云原生运维新时代
运维·云原生·容器·kubernetes·云运维
摆烂z22 分钟前
k8s环境脚本
云原生·容器·kubernetes
先做个垃圾出来………28 分钟前
创建Flask app应用对象
后端·python·flask
码界奇点31 分钟前
基于Spring Boot和Vue.js的房屋出租管理系统设计与实现
vue.js·spring boot·后端·车载系统·毕业设计·源代码管理
幽络源小助理1 小时前
SpringBoot国内旅游景点数据爬虫与可视化分析系统源码 – JavaWeb项目分享
spring boot·后端·爬虫
ChineHe1 小时前
Gin框架基础篇003_响应设置详解(状态码、头信息、多格式应答体)
后端·golang·gin