定时任务稳定性解决方案-healthchecks监控系统

背景

目前crontab出现问题后无感知，发现问题不及时，几乎是靠业务部门或用户反馈的方式，研发部门再排查的方式，处理问题、发现问题相对滞后，由此可见需要进一步优化crontab的稳定性，降故障通知前置，在用户反馈之前接受故障处理故障.

历史问题总结：

问题描述：目前上线是通过运维在salt服务器分发的方式，发布方式不透明，还存在手动修改的方式，不规范，曾出现过误操作导致全清空事件，定时任务服务器误操作后灾难恢复困难的问题

解决方案：统一规范成jenkins发布的模式，同发布代码走相同的逻辑

问题描述：目前发布代码需要选择服务器，存在错误选择的情况，从而引发问题.

解决方案：优化发布方式，发布无需选择服务器，自动判断发布服务器。

问题描述：目前是通过定时同步任务列表到/tmp/work_cron的方式，存在延迟

解决方案：研发直接查看gitlab的仓库即可

问题描述：较大的程序执行会耗费很大的内存，从而出现被系统oom的风险，然而系统oom后目前并不能发现

解决方案：针对系统oom的问题，可以收集/var/log/message的方式进行报警处理，可第一时间发现问题.

定时任务出现hang住进程，导致很多进程启动的问题；

多个进程同时运行导致数据错乱问题.

例如每次写的临时表名称一致，两个进程同时写则可能产生错误的数据结果.

解决方案：对于不可同时启动两个进程的任务，程序需要加锁判断状态保证数据的可靠性

问题描述：定时任务应当尽量的轻量化，最优方案是只做定时任务的触发，而后程序通过队列方式进行数据处理.

例如定时任务程序单次运行需要几十分钟以上，或者处理的数据量达千万级别.

解决方案：

问题描述：目前每个定时任务的执行状态（成功/失败/hang/warn）无法感知，只能通过日志来排查（如果有日志）

详情移步官网： https://healthchecks.io/ （开源软件）

Healthchecks 是一个用来监控定时任务（cron job）是否按时运行的系统。它通过一种非常简单有效的方式帮助你发现定时任务是否异常或失败。

如果你有多个定时任务，还可以用标签、项目分组等方式管理。如果你有兴趣搭建私有版本，它也支持 Docker 一键部署。