网络、API 连接和 pod 启动的问题

问题如下:

  • ArgoCDPrometheus/Grafana 服务的网络连通性差,出现了如 ImagePullBackOffCrashLoopBackOffi/o timeout 等错误。

  • 你尝试访问相关服务时,出现了 No route to hostconnection refused 错误。

  • 证书相关错误或 K8S 服务间的连接无法建立,导致应用无法启动和运行。

问题根源:

  • CNI (Calico) 网络配置问题 :Calico 没有正确设置或接口未启用,导致 Pod 网络无法正常工作。特别是 tunl0vxlan 等接口的状态为 UNKNOWN,并且没有正确的路由设置。

  • 内核参数问题 :如 ip_forwardrp_filter 设置不正确,影响到网络转发和封装。

  • Kubernetes 网络策略问题:防火墙设置或路由规则可能限制了 Pod 和节点之间的通信。

  • ArgoCD API 连接超时 :由于无法连接到集群的 localhost:8080,导致 ArgoCD 无法拉取目标状态。

解决方法:

(1) 检查网络与接口状态
  • 使用 ip addr 确认了网络接口(如 tunl0vxlan)是否存在,且接口是否处于 UP 状态。

  • 使用 ip route 确保路由正确,包括 Pod 网段路由(如 10.244.1.0/24)是否通过 Calico 接口。

  • 通过 sysctl 命令检查并修改了内核参数,确保启用了 IP 转发,并关闭了 rp_filter(反向路径过滤)。

(2) 重启 Calico 网络组件
  • 在节点上重启了 calico-node Pod,确保 CNI 插件重新初始化并恢复正常的网络连接。

  • 使用命令 kubectl -n kube-system delete pod -l k8s-app=calico-node 来清除并重启 Calico 节点。

(3) 检查与修复 Kubernetes 网络策略
  • 确保了节点与 Pod 之间的连接没有被 iptables 防火墙规则或 Calico 网络策略拦截。

  • 如果在防火墙和路由规则中发现问题,通过修改 iptables 设置来恢复正确的网络连接。

(4) 恢复 ArgoCD / Prometheus 服务
  • 解决了网络问题后,重启了 ArgoCD 和 Prometheus 相关的 Pods 和 Deployment(通过 kubectl rollout restart 命令),确保它们能够重新连接并正常运行。

  • 修复了连接超时和 i/o timeout 错误,恢复了 UI 访问和应用管理。

(5) 测试与验证
  • 使用 curl 命令验证了 Kubernetes API Server 是否可达(通过 https://<API_SERVER_IP>:6443/healthz)。

  • 确保了节点之间的网络连接恢复正常,使用 pingwget 测试了 pod 间的连接。

  • 确保了在重启 Calico 后,Pod 网络接口和路由恢复正常。

相关推荐
大树8814 小时前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
摇滚侠14 小时前
Linux CentOS7 rpm 安装 MySQL 5.7
linux·运维·mysql
霸道流氓气质15 小时前
领域驱动设计(DDD)在 Spring Boot 微服务中的实践指南
运维·spring boot·微服务
Inhand陈工16 小时前
基于台达PLC与映翰通IG502的智慧水产养殖精准投喂与远程运维解决方案
运维·人工智能·物联网·阿里云·信息与通信
网络研究院16 小时前
2026年网络安全
网络·安全·法律·法规·趋势·发展
酣大智16 小时前
ARP代理--工作原理
运维·网络·arp·arp代理
treesforest16 小时前
AI安全系统如何识别异常访问?IP风险识别正在成为关键能力
网络·人工智能·tcp/ip·安全·web安全
shushangyun_16 小时前
2026年快消品B2B系统推荐:支持终端门店订货、促销政策自动化的工具?
java·运维·网络·数据库·人工智能·spring·自动化
2601_9618451517 小时前
粉笔行测题库|系统班|刷题
网络·百度·微信·微信公众平台·facebook·新浪微博
施努卡机器视觉17 小时前
SNK施努卡侧滑门锁上滑轮总成自动化装配线,从零件到组件,全流程精密制造方案
运维·自动化·制造