Kubernetes 节点 DNS 解析异常问题排查与解决方案

因为 NodeLocal DNSCache 未加载更新后的节点 resolv.conf 导致 Pod 无法解析外部域名


一、问题现象

在 Kubernetes 集群中,部署的应用 Pod 在调度到 worker4 节点 时可以正常访问外部服务 qyapi.weixin.qq.com,但当调度到 worker3 节点时,Java 应用抛出如下异常:

csharp 复制代码
Caused by: java.net.UnknownHostException: qyapi.weixin.qq.com

经初步排查:

  • worker3 节点本身可通过 ping qyapi.weixin.qq.com 正常解析并连通;
  • worker4 节点无此问题;
  • 两节点操作系统及网络环境基本一致。

二、根因分析

1. 集群启用了 NodeLocal DNSCache

通过检查发现,集群部署了 NodeLocal DNSCache (DaemonSet,标签 k8s-app=nodelocaldns),用于优化 Pod 的 DNS 查询性能。其工作原理如下:

  • 每个节点运行一个本地 CoreDNS 实例,监听 IP(通常为 169.254.20.10);
  • Pod 的 /etc/resolv.confnameserver 被设置为此本地地址;
  • NodeLocal DNSCache 将集群内部域名请求转发给 CoreDNS,外部域名请求则转发给节点 /etc/resolv.conf 中配置的上游 DNS 服务器

2. NodeLocal DNSCache 仅在启动时读取 /etc/resolv.conf

  • NodeLocal DNSCache Pod 在启动时读取所在节点的 /etc/resolv.conf,获取上游 DNS 配置;
  • 不会动态监听或重新加载该文件的后续变更
  • 若节点的 DNS 配置发生变化(如修复错误配置),必须重启 NodeLocal DNSCache Pod 才能生效。

3. 问题发生过程

  1. worker3 节点初始的 /etc/resolv.conf 配置有误(如 nameserver 不可达);
  2. NodeLocal DNSCache Pod 启动时加载了错误的上游 DNS 配置;
  3. 即使后续手动修正了 worker3 的 /etc/resolv.conf,NodeLocal DNSCache 仍使用旧配置;
  4. 导致调度到 worker3 的 Pod 无法解析外部域名,而节点自身(直接使用 /etc/resolv.conf)可正常解析。

三、解决方案

✅ 步骤 1:确保节点 DNS 配置正确

将 worker3 的 /etc/resolv.conf 修改为与正常节点(如 worker4)一致,例如:

arduino 复制代码
// 注意这里,修改为与正常节点(如 worker4)一致
nameserver 114.114.114.114

💡 建议通过系统级网络管理工具(如 NetworkManager、systemd-resolved)进行持久化配置,避免被 DHCP 或云平台覆盖。

✅ 步骤 2:重启 NodeLocal DNSCache Pod

强制重建 worker3 上的 NodeLocal DNSCache 实例,使其加载最新的 /etc/resolv.conf

ini 复制代码
kubectl delete pods -n kube-system -l k8s-app=nodelocaldns

Kubernetes DaemonSet 控制器会自动在所有节点(包括 worker3)上创建新的 Pod。

✅ 步骤 3:验证修复结果

在 worker3 上部署测试 Pod,验证外部域名解析:

ini 复制代码
kubectl run debug --image=busybox:1.28 --rm -it --restart=Never \
  --overrides='{"spec":{"nodeSelector":{"kubernetes.io/hostname":"worker3"}}}' \
  -- nslookup qyapi.weixin.qq.com

预期输出应包含有效的 IP 地址,无超时或错误。


四、经验总结与建议

项目 说明
关键认知 NodeLocal DNSCache 不会动态重载 /etc/resolv.conf,修改后必须重启 Pod
运维规范 修改节点 DNS 配置后,应同步执行 kubectl delete pod -n kube-system -l k8s-app=nodelocaldns
配置持久化 避免直接编辑 /etc/resolv.conf,推荐使用系统网络管理工具或云平台配置
监控建议 可通过 Prometheus + CoreDNS 指标监控 DNS 解析失败率,提前发现类似问题

五、附录:相关组件说明

NodeLocal DNSCache 架构简图

scss 复制代码
Pod (nameserver: 169.254.20.10)
        ↓
NodeLocal DNSCache (本地 CoreDNS, 运行于每个节点)
        ↓
上游 DNS(来自节点 /etc/resolv.conf)
        ↓
公网/内网 DNS 服务器

查看 NodeLocal DNSCache 配置

csharp 复制代码
# 查看 ConfigMap
kubectl get cm nodelocaldns -n kube-system -o yaml

# 查看 Pod 状态
kubectl get pods -n kube-system -l k8s-app=nodelocaldns -o wide

记录人 :壹米饭 记录时间 :2025年12月5日
适用环境:启用 NodeLocal DNSCache 的 Kubernetes 集群(v1.18+)

📌 一句话总结:改了节点 DNS 配置?别忘了重启 nodelocaldns!

相关推荐
千寻技术帮12 分钟前
10333_基于SpringBoot的家电进存销系统
java·spring boot·后端·源码·项目·家电进存销
dear_bi_MyOnly12 分钟前
【多线程——线程状态与安全】
java·开发语言·数据结构·后端·中间件·java-ee·intellij-idea
小信丶2 小时前
@EnableTransactionManagement注解介绍、应用场景和示例代码
java·spring boot·后端
To Be Clean Coder2 小时前
【Spring源码】createBean如何寻找构造器(四)——类型转换与匹配权重
java·后端·spring
-孤存-2 小时前
SpringBoot核心注解与配置详解
java·spring boot·后端
2301_818732063 小时前
项目启动报错,错误指向xml 已解决
xml·java·数据库·后端·springboot
小王不爱笑1324 小时前
SpringBoot 整合 Ollama + 本地 DeepSeek 模型
java·spring boot·后端
江畔何人初4 小时前
k8s静态pod
云原生·容器·kubernetes
短剑重铸之日5 小时前
《设计模式》第七篇:适配器模式
java·后端·设计模式·适配器模式
u0104058366 小时前
淘客返利系统的CI/CD流水线搭建:Docker镜像构建与K8s部署实践
ci/cd·docker·kubernetes