一次“墙上网口突然全瘫”的故障排查:从 DHCP 冲突到非法路由器

一、故障现场:整条走廊的教室全部掉线

这一次的故障发生在校园机房巡检期间。

教室管理员突然向我们反馈:

"这一条走廊的全部教室都连不上网,IP 拿不到。"

我立刻连接交换机查看,发现多个端口上出现同样的问题:

• 终端无法获取 IP

• DHCP 请求超时

• 交换机日志出现大量冲突警告:

"duplicate IP detected"

这绝不是一般的小问题,而是典型的 DHCP 冲突型网络瘫痪。

二、第一步:确认 DHCP 服务器是否正常

我们先检查 DHCP 服务器是否宕机:

display dhcp server statistics

结果正常:

• 地址池未耗尽

• 服务在线

• 没有异常日志

这说明问题不是来自服务器自身。

为了进一步确认,我们用自己电脑连到机房 VLAN 测试:

• 能正常获取 IP

• 网关可 ping 通

• 服务正常

排除 DHCP 服务器问题。

三、第二步:查看广播域情况,发现异常 ARP 抢答

我们查看 VLAN 里 ARP 分发情况:

display arp all

结果发现:

❗ 一台陌生设备正在不断抢答 ARP 请求

也就是说:

VLAN 内出现了一台"私自接入的 DHCP 或路由器"。

它会:

• 抢答 ARP

• 伪造网关 IP

• 分配错误地址段

• 让终端拿到"错误 IP"导致不能上网

这就是导致整条走廊网络瘫痪的核心原因。

四、第三步:查找非法 DHCP 设备的位置

我们通过交换机的 MAC 地址表定位设备:

display mac-address | include xxxx.xxxx.xxxx

定位到某间教室的端口。

我们立即前往该教室检查,在桌子下发现一个"罪魁祸首":

❌ 学生私自接入的家用路由器

并且 WAN、LAN 被乱插一起,相当于"随便扩散 DHCP 信号"。

这通常会造成:

• 错误网段分配

• ARP 冲突

• DHCP 抢答

• 整个广播域瘫痪

五、第四步:断开非法设备,网络立即恢复

我们断开该路由器后:

• 所有终端重新获取正确 IP

• DHCP 请求成功率恢复

• 网关连通正常

• 网络延迟恢复 1ms 正常水平

全走廊的网络,在 30 秒内全面恢复。

这证明问题完全来自这台"非法 DHCP"。

六、技术分析:为什么私接路由器会让全网瘫痪?

家用路由器在校园网络中最大的问题就是:

① 会自己分配 DHCP(抢答最快)

因为家用路由器 DHCP 反应快于校园服务器,它会抢先分配错误 IP。

② LAN / WAN 被乱插,会变成广播扩散器

一个错误的连接方式,会让整个 VLAN 的广播包泛滥。

③ 会伪造默认网关

导致所有终端都去访问"假网关",自然无法访问真正的互联网。

④ 会制造 ARP 冲突

交换机会不断刷新 ARP,导致 CPU 升高。

这是校园网络中最常见、危害最大的"人为故障源"。

七、事后改进:我们做了三项治理措施

为了避免类似事件再次发生,我们与机房老师一起做了三项措施:

✔ ① 在接入层端口开启 DHCP Snooping(DHCP 监听)

只允许授权 DHCP 响应。

✔ ② 对教室端口开启 Port Security

限制 MAC 数量,防止乱接二层设备。

✔ ③ 在每间教室张贴"禁止连接路由器"通知

减少人为操作错误。

启用这些策略后,该楼层再未出现同类故障。

八、我个人的成长:第一次真正理解 DHCP 与广播域治理

这一次看似简单的故障,对我来说却非常重要。

① 我第一次把理论的 DHCP 原理 "看成现实中的问题"

课本的原理在现场中变成:

• 错误分配

• 伪造网关

• 广播混乱

让我真正懂得了 DHCP 的风险。

② 第一次完整使用 MAC → VLAN → 端口 定位故障

这是一套非常经典的运维链路。

③ 第一次理解"广播域治理"的必要性

校园网络用户多、终端乱,治理不严就会出事。

④ 第一次做到 10 分钟内恢复整层网络

对于当时期的我,是非常大的成就感。

九、结语:运维不是修设备,而是防止错误扩散

这次故障让我深刻理解一句话:

"用户可以犯错,但网络不能崩。"

真正的运维工作不是救火,而是:

• 设计可控边界

• 实施必要限制

• 提前发现异常

• 快速定位并恢复

这也是我越来越坚定走向"网络 + 安全 + 自动化"方向的原因。