一、故障现场:整条走廊的教室全部掉线
这一次的故障发生在校园机房巡检期间。
教室管理员突然向我们反馈:
"这一条走廊的全部教室都连不上网,IP 拿不到。"
我立刻连接交换机查看,发现多个端口上出现同样的问题:
• 终端无法获取 IP
• DHCP 请求超时
• 交换机日志出现大量冲突警告:
"duplicate IP detected"
这绝不是一般的小问题,而是典型的 DHCP 冲突型网络瘫痪。
二、第一步:确认 DHCP 服务器是否正常
我们先检查 DHCP 服务器是否宕机:
display dhcp server statistics
结果正常:
• 地址池未耗尽
• 服务在线
• 没有异常日志
这说明问题不是来自服务器自身。
为了进一步确认,我们用自己电脑连到机房 VLAN 测试:
• 能正常获取 IP
• 网关可 ping 通
• 服务正常
排除 DHCP 服务器问题。
三、第二步:查看广播域情况,发现异常 ARP 抢答
我们查看 VLAN 里 ARP 分发情况:
display arp all
结果发现:
❗ 一台陌生设备正在不断抢答 ARP 请求
也就是说:
VLAN 内出现了一台"私自接入的 DHCP 或路由器"。
它会:
• 抢答 ARP
• 伪造网关 IP
• 分配错误地址段
• 让终端拿到"错误 IP"导致不能上网
这就是导致整条走廊网络瘫痪的核心原因。
四、第三步:查找非法 DHCP 设备的位置
我们通过交换机的 MAC 地址表定位设备:
display mac-address | include xxxx.xxxx.xxxx
定位到某间教室的端口。
我们立即前往该教室检查,在桌子下发现一个"罪魁祸首":
❌ 学生私自接入的家用路由器
并且 WAN、LAN 被乱插一起,相当于"随便扩散 DHCP 信号"。
这通常会造成:
• 错误网段分配
• ARP 冲突
• DHCP 抢答
• 整个广播域瘫痪
五、第四步:断开非法设备,网络立即恢复
我们断开该路由器后:
• 所有终端重新获取正确 IP
• DHCP 请求成功率恢复
• 网关连通正常
• 网络延迟恢复 1ms 正常水平
全走廊的网络,在 30 秒内全面恢复。
这证明问题完全来自这台"非法 DHCP"。
六、技术分析:为什么私接路由器会让全网瘫痪?
家用路由器在校园网络中最大的问题就是:
① 会自己分配 DHCP(抢答最快)
因为家用路由器 DHCP 反应快于校园服务器,它会抢先分配错误 IP。
② LAN / WAN 被乱插,会变成广播扩散器
一个错误的连接方式,会让整个 VLAN 的广播包泛滥。
③ 会伪造默认网关
导致所有终端都去访问"假网关",自然无法访问真正的互联网。
④ 会制造 ARP 冲突
交换机会不断刷新 ARP,导致 CPU 升高。
这是校园网络中最常见、危害最大的"人为故障源"。
七、事后改进:我们做了三项治理措施
为了避免类似事件再次发生,我们与机房老师一起做了三项措施:
✔ ① 在接入层端口开启 DHCP Snooping(DHCP 监听)
只允许授权 DHCP 响应。
✔ ② 对教室端口开启 Port Security
限制 MAC 数量,防止乱接二层设备。
✔ ③ 在每间教室张贴"禁止连接路由器"通知
减少人为操作错误。
启用这些策略后,该楼层再未出现同类故障。
八、我个人的成长:第一次真正理解 DHCP 与广播域治理
这一次看似简单的故障,对我来说却非常重要。
① 我第一次把理论的 DHCP 原理 "看成现实中的问题"
课本的原理在现场中变成:
• 错误分配
• 伪造网关
• 广播混乱
让我真正懂得了 DHCP 的风险。
② 第一次完整使用 MAC → VLAN → 端口 定位故障
这是一套非常经典的运维链路。
③ 第一次理解"广播域治理"的必要性
校园网络用户多、终端乱,治理不严就会出事。
④ 第一次做到 10 分钟内恢复整层网络
对于当时期的我,是非常大的成就感。
九、结语:运维不是修设备,而是防止错误扩散
这次故障让我深刻理解一句话:
"用户可以犯错,但网络不能崩。"
真正的运维工作不是救火,而是:
• 设计可控边界
• 实施必要限制
• 提前发现异常
• 快速定位并恢复
这也是我越来越坚定走向"网络 + 安全 + 自动化"方向的原因。