软件看门狗：让服务永不宕机

我的github：codetoys，所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。

这些代码大部分以Linux为目标但部分代码是纯C++的，可以在任何平台上使用。

缘起

看门狗WatchDog是个硬件领域的概念，硬件一般没人盯着看，没人去重启，只能靠硬件自己来处理，所以使用一些专门硬件来确保故障后能恢复运行------一般也就是复位重启。其机制也很简单，就是硬件定时器，超时重启，如果运行正常，代码会在超时之前将定时器复位，避免重启。

现在的硬件"软化"程度很高，很多所谓"硬件盒子"其实就是个拆掉显示器和键盘的电脑，跑的是标准的linux/windows/android。

最近给一个盒子写程序，盒子是别人做的，我只写软件。盒子是个简化版linux，大部分开发工作和纯软件开发并无区别，只是遇到莫名其妙地跟盒子无法通讯了这就头疼了。

因为这是软件内部出的问题，所以软件自己要想办法发现。解决问题倒是很简单：重启即可。

为了在软件层面及时发现问题自动重启，需要实现看门狗一样的功能。

分析

有这么几个考虑的因素：

尽可能在外围，不深入被监控的代码，不会被无意修改
尽可能独立，不会因为被监控代码的故障而失效
自身容错，不会导致重启时间太长或太频繁
针对不明确的故障，因为明确的故障应该直接解决了

以上几条是考虑这些问题：

如果系统是因为某个原因卡住了，怎么办？
如果系统是因为罕见的异常出错，怎么办？
如果嵌入的代码被修改或移除，怎么办？
如果故障是因为存储满了，怎么办？

所有这些问题都是很难解决的，看门狗的思路不是创造无错代码，而是让有错误的代码能够恢复运行。

措施

双进程监控（fork）

双进程监控可以解决进程挂了的问题，监控进程因为太过简单，几乎不可能出错（硬件里面也没有人去手工kill -9）。监控进程应该足够简单，屏蔽所有可以屏蔽的信号，除了等待子进程结束之外什么都不做。

监控业务代码卡死

业务代码卡死，或者陷入故障循环，不会导致进程挂掉，双进程监控就解决不了这个问题了。只能手工设置监控点，通过定时检查监控点的状态来判断是否有故障。

例如，可以用一段时间内是否完成了业务来判断。在业务处理结束的地方设置一个全局变量，记录完成时间，那么只需要定时检查这个变量是否超过设定限度，比如这个值是10分钟前，说明10分钟内都没有完成任何业务，不妨重启一下（即使是真的没有业务可做，重启一下也没什么大不了，当然可能会恰好错过几个业务，但相比故障几天后找人去重启设备就是很小的损失了）。

存储满怎么办

存储满很难监控，也很难避免，可以在重启系统前删掉一些东西，保证重启后肯定有足够空间就可以了。

例如可以删掉最早的日志文件或数据文件。当然这引出一个话题：不能无限制写日志。

写文件要限制大小

所有写文件的机制都应该加上最大大小限制，不然写满整个存储是必然发生的事。即使如此，也可能因为各种问题导致占用了非预期的空间，比如文件复制、删除的失败导致遗留文件，所以存储满的情形时一定要考虑的。

代码

哎，代码太简单了，不好意西贴出来骗字数。

（这里是结束）