IB网络常见故障及如何处理这些故障以及如何优化

一、高频故障及快速处理

1.端口Down、灯不亮、链路起不来

现象:ibstat显示Down,无链路协商

**原因:**线缆松动/插反、光模块损坏、HCA卡故障、PCLe异常

处理

1、重新插拔线缆,确认端口卡扣锁紧

2、互换模块/线缆定位故障简,损坏直接替换

3、重启网卡、交换机端口,排查PCle插槽接触

4、检查HCA卡供电、机房散热

2.链路频繁抖动、闪断flapping

**现象:**端口反复Up/Down,业务断连

**原因:**光纤弯折过大、光功率超限、电磁干扰、温度过高

处理

1、光纤弯曲半径>=30mm,别开强电设备

2、mlxlink查看收发光功率,超标更换模块

3、网卡温度控制75摄氏度以内,改善风道

4、关别不必要自动协商,固定链路速率

3.链路速率自动降级

**现象:**ibqueryerrors统计大量符号错误、CRC错误

**原因:**端面脏污、链路超长、模块老化

处理

1.清洁光线端面,杜绝灰尘划痕

2.严格遵守链路长度会烦,不超规格布线

3、老化模块批量更换

5.SM子网管理异常

**现象:**节点无法互通、LID冲突、分区不通

**原因:**多DM同时运行、分区配置错误、opensm宕机

处理

1.集群只保留1个主SM,关闭多余实例

2.校验partition key 统一,权限放开

3.重启opensm服务,重新扫描子网拓扑

6.PFC拥赛、死锁、业务丢包

**现象:**流量卡顿、NCCL报错、RDMA重传激增

原因:流控配置错乱、队列溢出、优先级映射错误

处理

1.规范FPC使能端口与优先级

2.调整交换机缓存队列域值

3.计算流量绑定专属TC优先级

7.带块跑不满、延迟抖动大

**现象:**压测带宽远低于标称值,时延波动大

**原因:**MTU偏小、PCle降速、CPU中断抢占、队列参数过小

处理

1.统一放大MTU规格

2.锁定PCle最高速率,关闭节能降频

3.优化中断与CPU亲和性

8.驱动固件兼容报错

现象:内核日志报错网卡加载失败、RDMA不通

**原因:**OFED、HCA、交换机固件版本混杂

处理

1.集群全节点统一驱动怪你版本

2.重装匹配OFED,修复内核模块依赖

二、IB全网性能调优(落地参数)

1.硬件链路层

统一强制链路速率,全网FEC开启;布线合规,定期清洁光端面;

HCA插入全速PCle插槽,禁用节能模式

2.基础参数统一

全网MTU固定4096;关闭无用协商功能;LID、分区全局统一规划

3.固件驱动调优

集群所有HCA、交换机固件、OFED驱动版本完全一致,定期迭代稳定版本

4.流控Qos优化

合理开启PFC防拥赛死锁;AI算力流量分配高优先级TC;避免多业务抢占同一队列

5.RDMA队列优化

调大QP、CQ队列深度,适配大并发业务;优化RDMA重传超时参数

6.系统CPU优化

绑定网卡中断至本地NUMA核心;业务进程亲和性绑定,减少跨核调度;开启中断合并降开销

7.网络架构调优

叶脊组网减少转发跳数;启用ECMP负载分担;SM做高可用暴涨子网稳定

三、常用排查命令速查

ibstat # 查看端口状态、速率

iblinkinfo # 全网链路拓扑

mlxlink # 光功率、误码检测

ibqueryerrors # 统计链路错误

ibdiagnet # 全网健康巡检

ib_send_bw # 带宽压测

ib_read_lat # 时延测试

相关推荐
leo_yu_yty几秒前
Go语言分布式计算(RPC入门)
网络·网络协议·rpc
2401_8685347830 分钟前
2025下半年网络规划设计师真题(选择题、案例分析)
运维·服务器·网络
TechWayfarer1 小时前
查IP归属地接入实战:保险理赔如何做动态风险监控与预警
网络·python·tcp/ip·安全·flask
Resurgence_zc1 小时前
openGauss 资源池化主备页面交互流程梳理
网络·交互·数据库开发
Dlrb12112 小时前
Linux网络编程-网络基础概念(IP, UDP协议)
linux·服务器·网络·网络基础·端口号·ip协议·udp协议
shushangyun_2 小时前
汽车服务行业B2B平台+AI解决方案哪家专业:2026年最新测评
java·运维·网络·数据库·人工智能·汽车
一RTOS一2 小时前
东土科技:智能制造系统高性能工业网络解决方案揭榜挂帅项目正式验收达标
网络·科技·制造
森G2 小时前
64、完善聊天室程序(TLV拓展)---------网络编程
网络·c++·tcp/ip
专业机床数据采集3 小时前
基于 Wireshark 抓包逆向设备通信协议,并用 C# UDP协议跨平台 实现宝元数控程序列表读取、上传、下载和删除
网络·测试工具·wireshark·程序传输·宝元数控·dnc·数控程序传输