一、高频故障及快速处理
1.端口Down、灯不亮、链路起不来
现象:ibstat显示Down,无链路协商
**原因:**线缆松动/插反、光模块损坏、HCA卡故障、PCLe异常
处理
1、重新插拔线缆,确认端口卡扣锁紧
2、互换模块/线缆定位故障简,损坏直接替换
3、重启网卡、交换机端口,排查PCle插槽接触
4、检查HCA卡供电、机房散热
2.链路频繁抖动、闪断flapping
**现象:**端口反复Up/Down,业务断连
**原因:**光纤弯折过大、光功率超限、电磁干扰、温度过高
处理
1、光纤弯曲半径>=30mm,别开强电设备
2、mlxlink查看收发光功率,超标更换模块
3、网卡温度控制75摄氏度以内,改善风道
4、关别不必要自动协商,固定链路速率
3.链路速率自动降级
**现象:**ibqueryerrors统计大量符号错误、CRC错误
**原因:**端面脏污、链路超长、模块老化
处理
1.清洁光线端面,杜绝灰尘划痕
2.严格遵守链路长度会烦,不超规格布线
3、老化模块批量更换
5.SM子网管理异常
**现象:**节点无法互通、LID冲突、分区不通
**原因:**多DM同时运行、分区配置错误、opensm宕机
处理
1.集群只保留1个主SM,关闭多余实例
2.校验partition key 统一,权限放开
3.重启opensm服务,重新扫描子网拓扑
6.PFC拥赛、死锁、业务丢包
**现象:**流量卡顿、NCCL报错、RDMA重传激增
原因:流控配置错乱、队列溢出、优先级映射错误
处理
1.规范FPC使能端口与优先级
2.调整交换机缓存队列域值
3.计算流量绑定专属TC优先级
7.带块跑不满、延迟抖动大
**现象:**压测带宽远低于标称值,时延波动大
**原因:**MTU偏小、PCle降速、CPU中断抢占、队列参数过小
处理
1.统一放大MTU规格
2.锁定PCle最高速率,关闭节能降频
3.优化中断与CPU亲和性
8.驱动固件兼容报错
现象:内核日志报错网卡加载失败、RDMA不通
**原因:**OFED、HCA、交换机固件版本混杂
处理
1.集群全节点统一驱动怪你版本
2.重装匹配OFED,修复内核模块依赖
二、IB全网性能调优(落地参数)
1.硬件链路层
统一强制链路速率,全网FEC开启;布线合规,定期清洁光端面;
HCA插入全速PCle插槽,禁用节能模式
2.基础参数统一
全网MTU固定4096;关闭无用协商功能;LID、分区全局统一规划
3.固件驱动调优
集群所有HCA、交换机固件、OFED驱动版本完全一致,定期迭代稳定版本
4.流控Qos优化
合理开启PFC防拥赛死锁;AI算力流量分配高优先级TC;避免多业务抢占同一队列
5.RDMA队列优化
调大QP、CQ队列深度,适配大并发业务;优化RDMA重传超时参数
6.系统CPU优化
绑定网卡中断至本地NUMA核心;业务进程亲和性绑定,减少跨核调度;开启中断合并降开销
7.网络架构调优
叶脊组网减少转发跳数;启用ECMP负载分担;SM做高可用暴涨子网稳定
三、常用排查命令速查
ibstat # 查看端口状态、速率
iblinkinfo # 全网链路拓扑
mlxlink # 光功率、误码检测
ibqueryerrors # 统计链路错误
ibdiagnet # 全网健康巡检
ib_send_bw # 带宽压测
ib_read_lat # 时延测试