IB网络常见故障及如何处理这些故障以及如何优化

一、高频故障及快速处理

1.端口Down、灯不亮、链路起不来

现象:ibstat显示Down,无链路协商

**原因:**线缆松动/插反、光模块损坏、HCA卡故障、PCLe异常

处理

1、重新插拔线缆,确认端口卡扣锁紧

2、互换模块/线缆定位故障简,损坏直接替换

3、重启网卡、交换机端口,排查PCle插槽接触

4、检查HCA卡供电、机房散热

2.链路频繁抖动、闪断flapping

**现象:**端口反复Up/Down,业务断连

**原因:**光纤弯折过大、光功率超限、电磁干扰、温度过高

处理

1、光纤弯曲半径>=30mm,别开强电设备

2、mlxlink查看收发光功率,超标更换模块

3、网卡温度控制75摄氏度以内,改善风道

4、关别不必要自动协商,固定链路速率

3.链路速率自动降级

**现象:**ibqueryerrors统计大量符号错误、CRC错误

**原因:**端面脏污、链路超长、模块老化

处理

1.清洁光线端面,杜绝灰尘划痕

2.严格遵守链路长度会烦,不超规格布线

3、老化模块批量更换

5.SM子网管理异常

**现象:**节点无法互通、LID冲突、分区不通

**原因:**多DM同时运行、分区配置错误、opensm宕机

处理

1.集群只保留1个主SM,关闭多余实例

2.校验partition key 统一,权限放开

3.重启opensm服务,重新扫描子网拓扑

6.PFC拥赛、死锁、业务丢包

**现象:**流量卡顿、NCCL报错、RDMA重传激增

原因:流控配置错乱、队列溢出、优先级映射错误

处理

1.规范FPC使能端口与优先级

2.调整交换机缓存队列域值

3.计算流量绑定专属TC优先级

7.带块跑不满、延迟抖动大

**现象:**压测带宽远低于标称值,时延波动大

**原因:**MTU偏小、PCle降速、CPU中断抢占、队列参数过小

处理

1.统一放大MTU规格

2.锁定PCle最高速率,关闭节能降频

3.优化中断与CPU亲和性

8.驱动固件兼容报错

现象:内核日志报错网卡加载失败、RDMA不通

**原因:**OFED、HCA、交换机固件版本混杂

处理

1.集群全节点统一驱动怪你版本

2.重装匹配OFED,修复内核模块依赖

二、IB全网性能调优(落地参数)

1.硬件链路层

统一强制链路速率,全网FEC开启;布线合规,定期清洁光端面;

HCA插入全速PCle插槽,禁用节能模式

2.基础参数统一

全网MTU固定4096;关闭无用协商功能;LID、分区全局统一规划

3.固件驱动调优

集群所有HCA、交换机固件、OFED驱动版本完全一致,定期迭代稳定版本

4.流控Qos优化

合理开启PFC防拥赛死锁;AI算力流量分配高优先级TC;避免多业务抢占同一队列

5.RDMA队列优化

调大QP、CQ队列深度,适配大并发业务;优化RDMA重传超时参数

6.系统CPU优化

绑定网卡中断至本地NUMA核心;业务进程亲和性绑定,减少跨核调度;开启中断合并降开销

7.网络架构调优

叶脊组网减少转发跳数;启用ECMP负载分担;SM做高可用暴涨子网稳定

三、常用排查命令速查

ibstat # 查看端口状态、速率

iblinkinfo # 全网链路拓扑

mlxlink # 光功率、误码检测

ibqueryerrors # 统计链路错误

ibdiagnet # 全网健康巡检

ib_send_bw # 带宽压测

ib_read_lat # 时延测试

相关推荐
IT大白鼠9 小时前
2008年YouTube全球劫持事件:BGP协议脆弱性与互联网基础设施安全反思
网络·安全
Cheng小攸9 小时前
实验八:防火墙访问控制实验
网络
Sagittarius_A*9 小时前
H3CSE 高性能园区网:IGMP 互联网组管理协议详解
网络·计算机网络·h3cse
_Emma_9 小时前
【Linux网络】Linux网络协议栈问题汇集
linux·网络·网络协议
minji...9 小时前
Linux 网络基础之数据链路层(十三)认识以太网,认识MAC地址和MTU,局域网(以太网)通信原理
linux·网络·以太网·交换机·数据链路层·mac地址·局域网通信
minji...9 小时前
Linux 网络基础之数据链路层(十四)ARP协议及原理,ARP欺骗
linux·网络·智能路由器·ip·arp协议·arp欺骗
志栋智能9 小时前
运维超自动化的文化挑战:如何推动组织变革?
运维·网络·人工智能·自动化
盟接之桥9 小时前
制造业电子数据交换(EDI)应用 | 汽车零配件方案
网络·安全·低代码·汽车·制造
瘾大侠10 小时前
HTB - Reactor
网络·安全·web安全·网络安全