Kubernetes 节点 DNS 解析异常问题排查与解决方案

因为 NodeLocal DNSCache 未加载更新后的节点 resolv.conf 导致 Pod 无法解析外部域名


一、问题现象

在 Kubernetes 集群中,部署的应用 Pod 在调度到 worker4 节点 时可以正常访问外部服务 qyapi.weixin.qq.com,但当调度到 worker3 节点时,Java 应用抛出如下异常:

csharp 复制代码
Caused by: java.net.UnknownHostException: qyapi.weixin.qq.com

经初步排查:

  • worker3 节点本身可通过 ping qyapi.weixin.qq.com 正常解析并连通;
  • worker4 节点无此问题;
  • 两节点操作系统及网络环境基本一致。

二、根因分析

1. 集群启用了 NodeLocal DNSCache

通过检查发现,集群部署了 NodeLocal DNSCache (DaemonSet,标签 k8s-app=nodelocaldns),用于优化 Pod 的 DNS 查询性能。其工作原理如下:

  • 每个节点运行一个本地 CoreDNS 实例,监听 IP(通常为 169.254.20.10);
  • Pod 的 /etc/resolv.confnameserver 被设置为此本地地址;
  • NodeLocal DNSCache 将集群内部域名请求转发给 CoreDNS,外部域名请求则转发给节点 /etc/resolv.conf 中配置的上游 DNS 服务器

2. NodeLocal DNSCache 仅在启动时读取 /etc/resolv.conf

  • NodeLocal DNSCache Pod 在启动时读取所在节点的 /etc/resolv.conf,获取上游 DNS 配置;
  • 不会动态监听或重新加载该文件的后续变更
  • 若节点的 DNS 配置发生变化(如修复错误配置),必须重启 NodeLocal DNSCache Pod 才能生效。

3. 问题发生过程

  1. worker3 节点初始的 /etc/resolv.conf 配置有误(如 nameserver 不可达);
  2. NodeLocal DNSCache Pod 启动时加载了错误的上游 DNS 配置;
  3. 即使后续手动修正了 worker3 的 /etc/resolv.conf,NodeLocal DNSCache 仍使用旧配置;
  4. 导致调度到 worker3 的 Pod 无法解析外部域名,而节点自身(直接使用 /etc/resolv.conf)可正常解析。

三、解决方案

✅ 步骤 1:确保节点 DNS 配置正确

将 worker3 的 /etc/resolv.conf 修改为与正常节点(如 worker4)一致,例如:

arduino 复制代码
// 注意这里,修改为与正常节点(如 worker4)一致
nameserver 114.114.114.114

💡 建议通过系统级网络管理工具(如 NetworkManager、systemd-resolved)进行持久化配置,避免被 DHCP 或云平台覆盖。

✅ 步骤 2:重启 NodeLocal DNSCache Pod

强制重建 worker3 上的 NodeLocal DNSCache 实例,使其加载最新的 /etc/resolv.conf

ini 复制代码
kubectl delete pods -n kube-system -l k8s-app=nodelocaldns

Kubernetes DaemonSet 控制器会自动在所有节点(包括 worker3)上创建新的 Pod。

✅ 步骤 3:验证修复结果

在 worker3 上部署测试 Pod,验证外部域名解析:

ini 复制代码
kubectl run debug --image=busybox:1.28 --rm -it --restart=Never \
  --overrides='{"spec":{"nodeSelector":{"kubernetes.io/hostname":"worker3"}}}' \
  -- nslookup qyapi.weixin.qq.com

预期输出应包含有效的 IP 地址,无超时或错误。


四、经验总结与建议

项目 说明
关键认知 NodeLocal DNSCache 不会动态重载 /etc/resolv.conf,修改后必须重启 Pod
运维规范 修改节点 DNS 配置后,应同步执行 kubectl delete pod -n kube-system -l k8s-app=nodelocaldns
配置持久化 避免直接编辑 /etc/resolv.conf,推荐使用系统网络管理工具或云平台配置
监控建议 可通过 Prometheus + CoreDNS 指标监控 DNS 解析失败率,提前发现类似问题

五、附录:相关组件说明

NodeLocal DNSCache 架构简图

scss 复制代码
Pod (nameserver: 169.254.20.10)
        ↓
NodeLocal DNSCache (本地 CoreDNS, 运行于每个节点)
        ↓
上游 DNS(来自节点 /etc/resolv.conf)
        ↓
公网/内网 DNS 服务器

查看 NodeLocal DNSCache 配置

csharp 复制代码
# 查看 ConfigMap
kubectl get cm nodelocaldns -n kube-system -o yaml

# 查看 Pod 状态
kubectl get pods -n kube-system -l k8s-app=nodelocaldns -o wide

记录人 :壹米饭 记录时间 :2025年12月5日
适用环境:启用 NodeLocal DNSCache 的 Kubernetes 集群(v1.18+)

📌 一句话总结:改了节点 DNS 配置?别忘了重启 nodelocaldns!

相关推荐
陈随易3 小时前
聊一聊2025年用AI的思考与总结
前端·后端·程序员
为爱停留3 小时前
Spring Boot 应用配置参数化实践:通过 Docker Run 参数传递配置
spring boot·后端·docker
杨杨杨大侠3 小时前
DeepAgents 框架深度解析:从理论到实践的智能代理架构
后端·python·llm
雪人.3 小时前
Spring常见面试题(2026版30道面试题)
java·后端·spring
阿祖zu4 小时前
2025 AI 总结:技术研发的技能升维与职业路径系统重构的思考
前端·后端·ai编程
IT_陈寒4 小时前
Vite 5分钟性能优化实战:从3秒到300ms的冷启动提速技巧(附可复用配置)
前端·人工智能·后端
心在飞扬4 小时前
langchain学习总结-Embedding 学习总结
后端
羊小猪~~4 小时前
【QT】-- QT基础类
开发语言·c++·后端·stm32·单片机·qt
陈随易4 小时前
Vue-Router v5内置文件式路由,告别手写维护的恐惧
前端·后端·程序员
岚天start4 小时前
【K8S分配率】Shell脚本计算Kubernetes集群CPU和内存总分配率
云原生·容器·kubernetes·分配率