车载系统中的CPU与内存监管

安全节点中已经有心跳异常处理与节点状态异常处理了，为什么还要cpu与内存监管？

在真实的自动驾驶量产车上，"应用层监控（心跳/状态）" 和 "OS 层监控（CPU/内存）" 绝对不能互相替代。

如果把安全监管节点比作一个医生：

心跳和节点状态存在极其致命的**"三大盲区"**，这就是为什么我们必须加上 CPU 和内存的监管：

这是 ROS 2 系统中最可怕的现象。假设你的规划节点里有一个控制循环和一个发心跳的 Timer。由于 CPU 算力被其他进程（比如突然爆发的日志记录）严重挤兑，你的规划算法原本需要 20ms 算完，现在被拖长到了 80ms 甚至 120ms。

心跳节点的视角 ：规划节点的心跳是 1Hz（每秒发一次）。即使规划算法卡成了幻灯片，发心跳的线程只要在 1 秒内能抢到哪怕 1 毫秒的 CPU，心跳包就能发出去。安全节点认为：脉搏正常，继续行驶！
底盘的真实感受：控制指令严重掉帧，观光车已经开始在路上"画龙"或者冲向马路牙子了。
破局：此时心跳完全瞎了，只有 CPU 监控能发现总算力已经飙到了 98%，从而果断提前下发缓停指令。

自动驾驶系统是用 C++ 写的，内存泄漏（Memory Leak）是家常便饭。假设感知节点有个指针没释放，内存占用从 1GB 慢慢爬升到了 7GB（S100P 内存快满了）。

节点状态的视角 ：感知节点自己根本不知道 自己内存泄漏了，它发给安全节点的状态依然是 fault_level = 0（一切正常）。
心跳节点的视角：脉搏正常。
致命瞬间 ：当可用内存耗尽的瞬间，Linux 内核的无情杀手 OOM Killer（Out of Memory Killer） 会瞬间出动，直接把感知节点"一枪爆头"（Kill -9）。
实车后果 ：节点瞬间死亡，没有留下任何遗言。1 秒后，安全节点发现心跳断了，立刻触发硬件级紧急抱死（急刹车），车上的游客直接飞出去。
破局：如果有内存监控 ，它会在可用内存还剩 10%（比如 800MB）的时候，就提前发出警报："血液快流干了！"此时安全节点下发的是平滑减速、靠边停车，救了整车人一命。

在你们现在没有绑核的系统里，所有的节点都在共享 S100P 的 8 个核心和总内存。如果车上某个"非关键节点"（比如一个负责播放景区广播的进程，或者负责把数据上传到云端的进程）写出了死循环，疯狂吃 CPU 和内存。

受害者的视角：规划、控制、定位节点发现自己算得很慢，但它们不知道为什么，它们只能尽量发心跳。
安全节点的视角：如果只看心跳，安全节点只会觉得"大家好像都有点迟钝"，但找不出元凶，只能眼睁睁看着系统整体走向崩溃。
破局：CPU 监控 拥有上帝视角。它不仅保护关键节点，它还能在"猪队友"把系统彻底拖垮之前，通过总 CPU 占用率（> 90%）察觉到系统算力即将枯竭，从而做出降级决策。

这就是为什么高阶自动驾驶一定要做底层资源监控的终极原因：

心跳和状态异常 ，处理的都是**"已发生的灾难"。当心跳断掉的那一刻，车子已经处于极其危险的失控边缘了，此时只能用最暴力的急刹车**来保命。
CPU 和内存监控 ，处理的是**"即将发生的灾难"。它能在灾难发生前 10 秒钟甚至半分钟捕捉到端倪，让你有充足的时间去执行平滑减速、优雅靠边停车**。

对于一辆景区观光车来说，平滑靠边（预测性）和突然抱死（反应性），就是量产级系统和实验室 Demo 的本质区别。把这套逻辑理清，你的安全监管节点才算拥有了真正的"防患于未然"的能力。