已上架阿里云计算巢!Loki AI 事故分析引擎正式开放一键部署,帮 SRE 快速完成故障复盘

已上架阿里云计算巢!Loki AI 事故分析引擎正式开放一键部署,帮 SRE 快速完成故障复盘

作者 :Luke
日期:2026年4月

经过一段时间的打磨,我的开源项目 Incident AI 事故分析引擎 已经成功上架 阿里云计算巢

现在,你只需要几分钟时间,在计算巢填写几个关键参数,就能完成私有化部署,自动从 Loki 拉取日志,用 Qwen 或 DeepSeek 进行智能分析,并生成结构化事故报告推送到企业微信。

为什么要做这个工具?

在微服务架构下,故障定位和事故复盘一直是 SRE 和后端团队最头疼的事之一:

  • Loki 日志量巨大,手动排查效率低下
  • 写事故报告耗时耗力,格式还不统一
  • 凌晨告警后,往往要花几个小时才能给出完整分析和处理建议

我开发这个引擎的目的,就是把这个过程大幅简化,让 AI 来完成大部分重复劳动。

核心功能亮点

  • 支持 Loki + Prometheus 日志源
  • 支持 Qwen(通义千问)DeepSeek 等国产大模型
  • 自动生成结构化事故报告(执行摘要、已确认根因、疑似问题、处理建议、时间线、热力图、AI置信度等)
  • 支持企业微信、钉钉、飞书、邮箱、短信等多渠道推送
  • 完全私有化部署,数据和日志不出用户环境

重磅!已支持阿里云计算巢一键部署

我已将服务正式发布到阿里云计算巢,企业用户最推荐使用这种方式部署:

计算巢一键部署地址
https://computenest.console.aliyun.com/service/instance/create/cn-hangzhou?type=user&ServiceId=service-a98eb17b44db48c3a7b4

部署方式非常简单

  1. 打开上方链接
  2. 填写关键参数(LOKI_URL、WECOM_WEBHOOK、AI_PROVIDER、AI_API_KEY 等)
  3. 点击部署,等待几分钟即可完成

部署完成后,引擎会自动连接你已有的 Loki 和企业微信环境,实现日志分析 → 报告生成 → 推送的全流程自动化。

开源项目地址(欢迎 Star):
https://gitee.com/Luke-xuedong/incident-community

真实报告效果展示

(建议在这里插入你之前分享的那份 P1 事故报告截图)

这份报告包含:

  • P1 严重等级自动判定
  • 已确认根因 + 疑似根因
  • 立即处理建议 + 短期/长期优化措施
  • AI 置信度评分(例如 90%)
  • 时间线和异常趋势分析

比手动写的报告更加规范、专业,也更容易在团队和领导面前展示。

适用哪些团队?

  • 使用 Spring Cloud + Loki 的中大型团队
  • 依赖企业微信做内部通知的公司
  • SRE / DevOps 人员经常需要写事故报告的团队
  • 想尝试 AIOps 但不想自己从零搭建的团队

如何开始?

  1. 访问计算巢部署链接,快速体验一键部署
  2. 或直接访问 Gitee 项目,Clone 下来本地 Docker 部署
  3. 有任何问题欢迎在 Gitee Issue 留言,或添加我微信交流

目前基础版本已免费开放,完整自动分析 + 企业级支持可通过商业授权获得。


如果你正在被微服务故障复盘折磨,欢迎来试用这个工具。希望它能真正帮到你少加班、少熬夜。

计算巢部署链接

https://computenest.console.aliyun.com/service/instance/create/cn-hangzhou?type=user\&ServiceId=service-a98eb17b44db48c3a7b4

开源地址

https://gitee.com/Luke-xuedong/incident-community

欢迎点赞、收藏、转发,让更多 SRE 同学看到!


相关推荐
JAVA学习通几秒前
AI 工作流编排系统的任务拆分、重试与观测:2026年工程实践深度解析
java·人工智能·spring
cl131413141 分钟前
烟气测量格恩朗流量计选型指南
大数据·网络·人工智能·产品运营
xixixi777771 分钟前
国内首家“AI+量子”实体公司成立:量智开物发布“追风”“扁鹊”,开启下一代计算文明大门
大数据·网络·人工智能·安全·ai·科大讯飞·量子计算
武帝为此4 分钟前
【相关性分析综述】
人工智能·数学建模
ai产品老杨4 分钟前
深度解析:基于 Docker 与异构计算的 AI 视频管理平台架构实现(支持 GB28181/RTSP 与源码交付)
人工智能·docker·音视频
淡海水5 分钟前
【AI模型】概念-MCP
人工智能·大模型
BizViewStudio5 分钟前
甄选2026:AI重构新媒体代运营行业的三大核心变革与落地路径
大数据·人工智能·新媒体运营·媒体
csdn_aspnet5 分钟前
AI训练产区图:GPU算力梯队与任务匹配指南,构建AI模型训练中的一线/二线算力资源标准图谱
人工智能·ai·gpu算力·训练
liliangcsdn8 分钟前
VS Code + Continue编程插件示例
人工智能
AI医影跨模态组学8 分钟前
Eur Radiol(IF=4.7)南方医科大学第八附属医院放射科胡秋根等团队:基于CT影像组学的肝内胆管癌微血管侵犯术前预测模型辅助临床手术决策
人工智能·论文·医学·医学影像