一、故障背景:整层宿舍突然全部掉线
那天晚上正在巡检时,我突然收到多位同学反馈:
• 整个楼层 WiFi 全部掉线
• 宿舍路由器不断重启
• 交换机机柜指示灯全部狂闪
这不是普通的单点故障,而是:
典型的广播风暴 / 环路冲击现象。
这种现象对二层网络破坏力极强,会导致整层网络瘫痪。
我立刻赶到交换机机柜进行现场排查。
二、第一步:快速确认是否为环路问题
到了机柜后,我进行了三个快速判断动作:
✔ 1. 检查交换机面板
多个端口同时持续高速闪烁,且不间断。
✔ 2. 登录交换机查看 CPU 占用
使用:
display cpu-usage
CPU 已经接近 99%,这与广播风暴几乎完全一致。
✔ 3. 查看风暴控制状态
部分端口出现 storm 抑制告警。
三条信息叠加,基本可以确认:
二层环路已经形成。
三、第二步:定位风暴来源------必须先止血
我开始逐端排查,使用命令:
display interface brief
其中一个端口异常:
• 流量突增
• 入方向广播包暴涨
• MAC 表项收敛混乱
这通常说明该端口背后存在:
• 私自接交换机
• 路由器 LAN-WAN 错接
• 网线打了"回环"
• 弱电箱里双口面板互插
• 二手 AP 自动互联
我立即对该端口执行:
shutdown
端口关闭后一秒钟,交换机 CPU 从 99% 降到 12%,整个楼层网络恢复。
确定了根因:
某宿舍私自接入了一个"多口扩展器",并错误把两个 LAN 口互连,形成二层回路。
四、第三步:彻底排查并验证恢复情况
为了确保问题未扩散,我继续做了两件事:
✔ 1. 检查 MAC 表项是否恢复正常
广播量恢复平稳。
✔ 2. 测试整层连通性
• ping 网关
• ping 校园业务系统
• ping 外网
全部恢复。
五、第四步:为什么一个小小的环路会造成这么大影响?
我总结给同学们解释:
因为二层交换机没有 TTL
导致数据包:
可以无限循环,不会自动消亡。
环路 = 数据包疯狂倍增 = 交换机 CPU 爆满
最终导致:
• ARP 表错乱
• MAC 表翻滚
• 交换机无法正常处理真实业务
• 整层网络瘫痪
这就是为什么:
一个宿舍的错误接线 → 整层掉网。
六、第五步:复盘------这次排障让我学到的关键能力
① 快速识别广播风暴特征
现在我可以在 10 秒钟内判断:
• 指示灯狂闪
• CPU 飙升
• MAC 表抖动
• broadcast 流量异常
这 4 个特征叠加基本 100% 是环路。
② 学会用 display 命令定位端口异常
包括:
display interface brief
display mac-address
display cpu-usage
display current-configuration
这些都是网络运维必备技能。
③ 知道"shutdown 止血"比盲目修复更重要
环路的第一步不是排查,而是止血:
先关端口,再查原因。
不停环,交换机 CPU 永远降不下来。
④ 更深刻理解 STP / RSTP 的必要性
很多人觉得 STP 复杂就不开,但实际企业网络必须依赖:
• STP 保护防环
• RSTP 快速收敛
• MSTP 多实例保护
没有二层保护 = 风暴迟早发生。
七、长期改进:我为机房提出了三项建议
根据这次事故,我向老师提交了优化方案:
✔ 1. 开启全网 storm-control 广播抑制
避免一次宿舍设备错误导致整层瘫痪。
✔ 2. 对宿舍区配置 Port Security
限制未知 MAC、大流量 MAC 自动 shutdown。
✔ 3. 开启 BPDU Guard
防止用户接入交换机破坏拓扑。
老师均采纳并逐步实施。
八、总结:这是我真正理解"二层风险思维"的一次经历
这次排障让我明白:
• 运维不是简单"修网"
• 更不是"重启解决一切"
• 而是对网络风险的预判与处理
它让我真正具备了网络工程师思维:
比解决更重要的是控制风险;
比排障更重要的是避免事故。
这次经历也直接影响了我后续的项目设计与拓扑规划,让我对大型校园网、园区网有了真正的理解。