LVS故障排查

一、故障分类与排查思路

LVS出问题,通常分四类:

  1. 网络层问题:比如VIP(虚拟IP)ping不通,或者后端服务器网络不通。

  2. 负载均衡问题:比如流量分配不均、会话保持失效、调度算法出问题。

  3. 服务层问题:比如后端服务挂了、健康检查没通过、端口冲突。

  4. 高可用问题:比如主备切换失败、脑裂(两台同时抢VIP)、ARP混乱。


二、常用命令速查

  • 看网络ipvsadm -Lnping VIPip a

  • 看服务ipvsadm -L -cnetstat -tunlp

  • 看统计ipvsadm -l --statsss -s

  • 看健康curl -I VIP、日志在 /var/log/

  • 看ARParp -antcpdump arp


三、几个典型问题怎么解决

案例1:VIP访问不了

现象:客户端连不上VIP,但直接访问后端服务器没问题。

排查步骤

  1. 看VIP有没有绑定:ip addr show | grep VIP,没有就手动加。

  2. 看ipvsadm服务是不是正常。

  3. 看ARP抑制配置对不对(arp_ignore 应为1)。

原因:服务器重启后VIP没自动绑定。

解决:在keepalived配置文件里写好VIP,重启服务。


案例2:流量分配不均

现象:10台后端服务器,3台忙得要死,其他闲着。

原因:所有服务器权重一样,但性能不同。

解决:调权重,性能好的给高权重,差的给低权重。


案例3:主备切换失败

现象:主节点挂了,备节点没接上VIP。

原因:网线松了,keepalived检测不到网络。

解决:修网线,加个监控脚本检测网卡状态,失败就降权触发切换。


四、配置优化建议

  • 开启IP转发:echo 1 > /proc/sys/net/ipv4/ip_forward

  • 关闭ARP响应(防冲突):设置 arp_ignorearp_announce

  • 在RS上也要配置VIP,但要绑在 lo 上,防止抢VIP

  • 调度算法用 wrr 更灵活


五、调试技巧

  • 看LVS连接状态:ipvsadm -Lcn

  • 抓包分析:tcpdump host VIP

  • 看CPU中断分布:cat /proc/interrupts

  • 调大连接表:echo 4096 > /proc/sys/net/ipv4/vs/conn_tab_bits


六、Keepalived配置要点

  • 主备节点配置基本相同,只是 statepriority 不同

  • 健康检查可以用 TCP_CHECK,超时时间设短一点

  • 会话保持时间(persistence_timeout)别设太长,否则流量不均衡


七、自动化脚本

写个脚本定期检查后端服务是否正常,不正常的就从LVS里踢掉,恢复后再加回来。这样能自动处理小故障。


八、监控告警

可以用Prometheus监控LVS的连接数、后端健康状态、VIP是否可达。超过阈值就报警,比如:

  • 连接数飙升

  • 后端挂了

  • VIP ping不通


九、常见问题速查表

问题 检查点 解决
VIP不通 ARP、网卡 配好ARP,绑VIP
后端收不到请求 路由、lo接口 RS也要绑VIP
主备不切换 keepalived、网络 加双心跳线
部分客户端连不上 会话保持、防火墙 调timeout,放行端口
性能差 连接表、CPU 调大连接表,开启RSS

十、灾备恢复流程

  1. 主节点挂了,手动切到备:停主节点的keepalived,备节点恢复配置。

  2. 恢复配置:从备份里恢复ipvsadm和keepalived配置。

  3. 验证:检查VIP绑定,curl测试服务。


总结一句话:

LVS出问题,先看网络,再看配置,最后看后端服务。用好命令、配好监控、写好脚本,就能稳稳当当跑下去。

相关推荐
银河麒麟操作系统2 小时前
服务器通用(全架构)【服务器存储系统原理与运维实践解析】技术文章
运维·服务器·架构
爱丽_2 小时前
Nginx 从入门到项目部署(反向代理 / 负载均衡 / 静态资源)
运维·nginx·负载均衡
returnthem2 小时前
Docker基本命令
linux·运维·服务器
05大叔2 小时前
Docker
运维·docker·容器
恒创科技HK2 小时前
海外服务器回国线路对比,带宽选择指南
运维·服务器
China_Yanhy2 小时前
运维日记 - 猛男的AI拓荒录:Fabric (GitHub: danielmiessler/fabric) —— 让 AI 回归 Unix 哲学的终端神器
运维·人工智能·fabric
wbs_scy2 小时前
Linux 基础 IO 初步解析:从 C 库函数到系统调用,理解文件操作本质
linux·运维·服务器
袁煦丞 cpolar内网穿透实验室2 小时前
Portainer可视化玩转 Docker 全流程。cpolar 内网穿透实验室第 737 个成功挑战
运维·docker·容器·远程工作·内网穿透·cpolar
广州服务器托管2 小时前
WIN11中将控制面板固定到开始菜单的方法
运维·开发语言·windows·计算机网络·可信计算技术