分享一个服务故障自愈系统

项目简介

OMSDevOps 是一套轻量级、开箱即用的智能运维平台,专注于服务健康检查自动化自愈。通过 SSH 远程执行命令、HTTP/TCP 探测等方式监控业务服务状态,并在服务连续失败达到设定阈值时自动执行启动、重启等自愈动作,有效减少人工介入,提升系统可用性。

系统内置 Web 管理界面,支持多主机、多服务管理,记录完整的事件历史与自愈日志,适用于中小规模服务器环境的日常运维。


主要功能

  • 多主机管理

    支持密码或 SSH 私钥认证,可添加多台 Linux 服务器,测试连接状态。

  • 服务监控

    • 命令检测(如 ps -ef|grepsystemctl status
    • HTTP/HTTPS 接口状态码检测
    • TCP 端口连通性检测
      每个服务可独立设置探测间隔(秒)和连续失败阈值。
  • 智能自愈

    当服务连续失败次数达到阈值时,自动执行预设的启动、重启或停止命令,并记录自愈结果。支持自愈开关和动作自定义。

  • 可视化仪表盘

    展示服务总数、健康/异常服务数量、最近事件和自愈记录。

  • 事件与日志

    所有健康检查结果(含输出、延迟、失败次数)存入事件库;所有自愈动作的执行结果单独记录,便于事后审计。

  • 轻量部署

    基于 Flask + SQLite,无需额外数据库,单文件即可运行。


运行环境

  • 支持 / Linux (生产建议 Linux)

快速开始

1. 启动系统

bash 复制代码
[root@node1 ~]# chmod +x OMSDevOps
[root@node1 ~]# ./OMSDevOps

默认监听 0.0.0.0:5000,访问 http://服务器IP:5000

4. 登录

默认管理员账户:admin / admin123

首次运行会自动创建 SQLite 数据库文件 orion_devops.db



使用指南

主机管理

  • 添加主机:填写名称、IP地址、SSH端口、用户名、认证方式(密码或私钥内容)。
  • 测试连接 :系统会执行 echo ok 验证 SSH 连通性。
  • 编辑/删除:支持修改主机信息,删除时会级联删除其下所有服务。

服务管理

  • 添加服务 :选择所属主机,设定检查类型(命令/HTTP/TCP)。
    • 命令类型 :填写检查命令(如 ps -ef|grep redis),可选"期望输出正则"来精确匹配进程行。
    • HTTP类型:填写 URL 和期望的 HTTP 状态码(默认200)。
    • TCP类型:填写端口,可选主机地址(默认使用主机 IP)。
  • 自愈配置
    • 探测间隔:两次健康检查之间的秒数(建议30~120)。
    • 失败阈值:连续失败多少次后触发自愈(建议2~3)。
    • 自愈动作:选择启动、停止或重启命令(需预先填写对应的 SSH 命令)。
    • 启用自愈:勾选后才会自动执行修复。
  • 服务列表:展示每个服务的最新状态、最后检查时间、失败次数,支持编辑和删除。

仪表盘

  • 顶部统计卡片显示总体健康状况。
  • 右侧"最近事件"展示最新的10次检查记录(包含服务名、主机名、IP、状态)。
  • 右侧"最近自愈记录"展示最近10次自动修复动作及结果。
  • 页面右上角均设有刷新按钮,可手动更新数据。

事件历史

  • 记录每一次健康检查的详细信息(命令输出、HTTP状态码、TCP连通性等)。
  • 支持按时间倒序查看,最多保留200条(可修改代码调整)。

自愈记录

  • 记录每次自愈动作的执行时间、服务、动作、成功/失败、输出或错误信息。
  • 便于排查自动修复是否有效。








相关推荐
做个文艺程序员2 小时前
Spring AI + Qwen3.5 实现多步 Agent:从工具调用到自主任务拆解的踩坑全记录
java·人工智能·spring
波动几何2 小时前
极简万能通用AI Agent:universal-agent
人工智能
ZC跨境爬虫2 小时前
极验滑动验证码自动化实战:背景提取、缺口定位与Playwright滑动模拟
前端·爬虫·python·自动化
行者-全栈开发2 小时前
腾讯地图 Map Skills 快速入门:从零搭建 AI 智能行程规划应用
人工智能·typescript·腾讯地图·ai agent·mcp 协议·map skills·智能行程规划
失伟3 小时前
Stratovirt安装及使用
运维·虚拟化
彩虹编程3 小时前
通俗讲解LTN中的非逻辑符号、连接词、量词
人工智能·神经符号
DoUfp0bgq3 小时前
解决RDK X5(ARM64架构)板卡Remote-SSH运行Antigravity AI崩溃(SIGILL):Samba网络盘本地挂载方案
人工智能·架构·ssh
小小小怪兽3 小时前
⛏️深入RAG
人工智能·langchain
Kel3 小时前
Pi Monorepo Stream Event Flow 深度分析
人工智能·架构·node.js