网络、API 连接和 pod 启动的问题

问题如下:

  • ArgoCDPrometheus/Grafana 服务的网络连通性差,出现了如 ImagePullBackOffCrashLoopBackOffi/o timeout 等错误。

  • 你尝试访问相关服务时,出现了 No route to hostconnection refused 错误。

  • 证书相关错误或 K8S 服务间的连接无法建立,导致应用无法启动和运行。

问题根源:

  • CNI (Calico) 网络配置问题 :Calico 没有正确设置或接口未启用,导致 Pod 网络无法正常工作。特别是 tunl0vxlan 等接口的状态为 UNKNOWN,并且没有正确的路由设置。

  • 内核参数问题 :如 ip_forwardrp_filter 设置不正确,影响到网络转发和封装。

  • Kubernetes 网络策略问题:防火墙设置或路由规则可能限制了 Pod 和节点之间的通信。

  • ArgoCD API 连接超时 :由于无法连接到集群的 localhost:8080,导致 ArgoCD 无法拉取目标状态。

解决方法:

(1) 检查网络与接口状态
  • 使用 ip addr 确认了网络接口(如 tunl0vxlan)是否存在,且接口是否处于 UP 状态。

  • 使用 ip route 确保路由正确,包括 Pod 网段路由(如 10.244.1.0/24)是否通过 Calico 接口。

  • 通过 sysctl 命令检查并修改了内核参数,确保启用了 IP 转发,并关闭了 rp_filter(反向路径过滤)。

(2) 重启 Calico 网络组件
  • 在节点上重启了 calico-node Pod,确保 CNI 插件重新初始化并恢复正常的网络连接。

  • 使用命令 kubectl -n kube-system delete pod -l k8s-app=calico-node 来清除并重启 Calico 节点。

(3) 检查与修复 Kubernetes 网络策略
  • 确保了节点与 Pod 之间的连接没有被 iptables 防火墙规则或 Calico 网络策略拦截。

  • 如果在防火墙和路由规则中发现问题,通过修改 iptables 设置来恢复正确的网络连接。

(4) 恢复 ArgoCD / Prometheus 服务
  • 解决了网络问题后,重启了 ArgoCD 和 Prometheus 相关的 Pods 和 Deployment(通过 kubectl rollout restart 命令),确保它们能够重新连接并正常运行。

  • 修复了连接超时和 i/o timeout 错误,恢复了 UI 访问和应用管理。

(5) 测试与验证
  • 使用 curl 命令验证了 Kubernetes API Server 是否可达(通过 https://<API_SERVER_IP>:6443/healthz)。

  • 确保了节点之间的网络连接恢复正常,使用 pingwget 测试了 pod 间的连接。

  • 确保了在重启 Calico 后,Pod 网络接口和路由恢复正常。

相关推荐
forAllforMe1 天前
etherCAT的协议VoE,FoE,EoE,CoE的概念和区别
网络
斯普信云原生组1 天前
Prometheus 环境监控虚机 Redis 方案(生产实操版)
运维·docker·容器
大数据新鸟1 天前
操作系统之虚拟内存
java·服务器·网络
迷藏4941 天前
**eBPF实战进阶:从零构建网络流量监控与过滤系统**在现代云原生架构中,**网络可观测性**和**安全隔离**已成为
java·网络·python·云原生·架构
zmj3203241 天前
汽车电子内部网络架构图
网络·汽车
safestar20121 天前
ES批量写入性能调优:BulkProcessor 参数详解与实战案例
java·大数据·运维·jenkins
❀͜͡傀儡师1 天前
k8s部署的Nexus 3 数据库损坏恢复指南:从删除损坏数据库到完整数据重建
数据库·kubernetes·nexus3
来一颗砂糖橘1 天前
负载均衡的多维深度解析
运维·负载均衡
楠奕1 天前
CentOS7安装GoldenDB单机搭建及常见报错解决方案
linux·运维·服务器
汽车仪器仪表相关领域1 天前
NHFID-1000型非甲烷总烃分析仪:技术破局,重构固定污染源监测新体验
java·大数据·网络·人工智能·单元测试·可用性测试·安全性测试