分享一个服务故障自愈系统

项目简介

OMSDevOps 是一套轻量级、开箱即用的智能运维平台,专注于服务健康检查自动化自愈。通过 SSH 远程执行命令、HTTP/TCP 探测等方式监控业务服务状态,并在服务连续失败达到设定阈值时自动执行启动、重启等自愈动作,有效减少人工介入,提升系统可用性。

系统内置 Web 管理界面,支持多主机、多服务管理,记录完整的事件历史与自愈日志,适用于中小规模服务器环境的日常运维。


主要功能

  • 多主机管理

    支持密码或 SSH 私钥认证,可添加多台 Linux 服务器,测试连接状态。

  • 服务监控

    • 命令检测(如 ps -ef|grepsystemctl status
    • HTTP/HTTPS 接口状态码检测
    • TCP 端口连通性检测
      每个服务可独立设置探测间隔(秒)和连续失败阈值。
  • 智能自愈

    当服务连续失败次数达到阈值时,自动执行预设的启动、重启或停止命令,并记录自愈结果。支持自愈开关和动作自定义。

  • 可视化仪表盘

    展示服务总数、健康/异常服务数量、最近事件和自愈记录。

  • 事件与日志

    所有健康检查结果(含输出、延迟、失败次数)存入事件库;所有自愈动作的执行结果单独记录,便于事后审计。

  • 轻量部署

    基于 Flask + SQLite,无需额外数据库,单文件即可运行。


运行环境

  • 支持 / Linux (生产建议 Linux)

快速开始

1. 启动系统

bash 复制代码
[root@node1 ~]# chmod +x OMSDevOps
[root@node1 ~]# ./OMSDevOps

默认监听 0.0.0.0:5000,访问 http://服务器IP:5000

4. 登录

默认管理员账户:admin / admin123

首次运行会自动创建 SQLite 数据库文件 orion_devops.db



使用指南

主机管理

  • 添加主机:填写名称、IP地址、SSH端口、用户名、认证方式(密码或私钥内容)。
  • 测试连接 :系统会执行 echo ok 验证 SSH 连通性。
  • 编辑/删除:支持修改主机信息,删除时会级联删除其下所有服务。

服务管理

  • 添加服务 :选择所属主机,设定检查类型(命令/HTTP/TCP)。
    • 命令类型 :填写检查命令(如 ps -ef|grep redis),可选"期望输出正则"来精确匹配进程行。
    • HTTP类型:填写 URL 和期望的 HTTP 状态码(默认200)。
    • TCP类型:填写端口,可选主机地址(默认使用主机 IP)。
  • 自愈配置
    • 探测间隔:两次健康检查之间的秒数(建议30~120)。
    • 失败阈值:连续失败多少次后触发自愈(建议2~3)。
    • 自愈动作:选择启动、停止或重启命令(需预先填写对应的 SSH 命令)。
    • 启用自愈:勾选后才会自动执行修复。
  • 服务列表:展示每个服务的最新状态、最后检查时间、失败次数,支持编辑和删除。

仪表盘

  • 顶部统计卡片显示总体健康状况。
  • 右侧"最近事件"展示最新的10次检查记录(包含服务名、主机名、IP、状态)。
  • 右侧"最近自愈记录"展示最近10次自动修复动作及结果。
  • 页面右上角均设有刷新按钮,可手动更新数据。

事件历史

  • 记录每一次健康检查的详细信息(命令输出、HTTP状态码、TCP连通性等)。
  • 支持按时间倒序查看,最多保留200条(可修改代码调整)。

自愈记录

  • 记录每次自愈动作的执行时间、服务、动作、成功/失败、输出或错误信息。
  • 便于排查自动修复是否有效。








相关推荐
冬奇Lab2 分钟前
一天一个开源项目(第85篇):TypeScript 巫师把自己的 Claude 配置推到了 GitHub,一夜全球第一
人工智能·开源·claude
爱艺江河4 分钟前
智慧合规的HarmonyOS原生实践:与OpenClaw适配的项目方案浅析
人工智能·华为·harmonyos
xiaoduo AI7 分钟前
客服机器人用知识图谱推理吗?Agent功能介绍+关联问答,跨品类问题能推导?
人工智能·机器人·知识图谱
Data-Miner9 分钟前
数以轻舟聚焦Excel-Agent场景:当AI做表工具学会说人话
人工智能·excel
甲维斯10 分钟前
完了!我要背弃Opus4.7叛逃到GPT5.5+Codex了
人工智能·ai编程
夏沫の梦22 分钟前
生图新王GPT-image-2已用!附使用教程+生成案例
人工智能
AI木马人38 分钟前
13.【多租户架构实战】如何让一个AI系统同时服务多个用户且数据完全隔离?(完整设计方案)
人工智能·架构
sjsjsbbsbsn42 分钟前
大模型核心知识总结
java·人工智能·后端
qq_411262421 小时前
四博 AI 双目智能音箱方案:把“会说话的音箱”升级成“会表达、会感知、会控制”的 AI 终端
人工智能·智能音箱
努力努力再努力FFF2 小时前
跨境电商运营想用AI优化广告和选品,该从哪里开始学?
人工智能