阿里云计算巢已上架!3分钟部署 Loki AI 事故分析引擎,SRE 复盘时间直接砍掉 80%
作者 :Luke
日期:2026年4月
凌晨告警一响,SRE 最怕的就是开始漫长地翻 Loki 日志、拼时间线、写复盘报告。
我自己也受够了这种折磨,于是开发了一个 Incident AI 事故分析引擎 ,现在已经成功上架阿里云计算巢。
这个工具到底能干什么?
- 自动从 Loki(支持 Prometheus)拉取异常日志
- 使用 Qwen(通义千问)或 DeepSeek 大模型智能分析根因
- 1-2 分钟生成结构化事故报告(严重等级、已确认根因、处理建议、时间线、AI置信度等)
- 报告自动推送至企业微信(同时支持钉钉、飞书)
核心效果:把原来 1-2 小时的复盘工作,缩短到 10-20 分钟。
最推荐的部署方式:计算巢一键部署
我已经把服务正式发布到阿里云计算巢,支持完全私有化部署,数据全部留在你自己的阿里云账号里。
计算巢一键部署链接 (直接点开即可使用):
部署流程超级简单:
- 点击上方链接
- 填写 3 个核心参数:
- LOKI_URL(你的 Loki 服务地址)
- WECOM_WEBHOOK(企业微信机器人 Key)
- AI_PROVIDER(选择 qwen 或 deepseek) + 对应 API Key
- 点击部署,几分钟后即可完成
开源项目地址(欢迎 Star 支持):
https://gitee.com/Luke-xuedong/incident-community
谁适合使用?
- 使用 Spring Cloud + Loki 的微服务团队
- 依赖企业微信做内部通知的公司
- 经常值班、写事故报告的 SRE 和 DevOps 工程师
如何开始?
- 直接点击上方计算巢部署链接体验
- 有任何部署或使用问题,欢迎在 Gitee Issue 留言
- 需要自动定时分析、企业级支持或定制功能,可以私信我
目前基础功能已免费开放,如果你也经常被故障复盘和日志分析困扰,欢迎来试用!
计算巢一键部署地址 :
开源地址 :
https://gitee.com/Luke-xuedong/incident-community
欢迎 Star、试用、反馈,一起让运维少熬夜!