把大模型当“温度计”——基于 LLM 的分布式系统异常根因定位实战

标签:AIOps、根因定位、可观测性、日志聚类、LLM、向量检索、Prometheus、ELK


  1. 背景:凌晨 3 点的 P0,定位 2 小时?

某电商大促,上千微服务并发飙升,告警电话连环轰炸:

• Prometheus 500+ 指标飘红;

• ELK 日志 10 GB/min 疯狂刷屏;

• 最终人工翻日志 2 小时才定位到 一个配置中心超时。

领导发话:"能不能 5 分钟自动告诉我是哪一行配置?"

于是我们把 大模型 变成了 分布式系统的"温度计",直接读出异常根因。


  1. 技术方案:LLM + 向量检索 + 层次聚类

模块 选型 作用

日志/指标采集 Filebeat + OTel 统一 Schema

向量编码 Sentence-Transformer-Mini 日志 → 512 维

向量库 Qdrant + HNSW 毫秒级搜索

根因推理 Llama3-8B-LoRA 5-shot prompt

结果排序 Cross-Encoder 重排 Top-3 根因


  1. 流水线:3 步 5 分钟闭环

  2. 异常检测:Prometheus Rule → 触发事件

  3. 日志聚类:向量检索 + 层次聚类 → 100 条 → 5 条聚类中心

  4. LLM 根因:5-shot prompt → JSON 输出 {service, file, line, reason}


  1. Prompt 模板(可直接抄)

你是一名 SRE 专家,根据下面异常聚类日志,给出根因:

日志1\] \[日志2\] \[日志3\] \[日志4\] \[日志5

返回 JSON:{"service":"xxx","file":"yyy","line":123,"reason":"..."}


  1. 代码速览(核心 80 行)
python 复制代码
# root_cause.py
from qdrant_client import QdrantClient
from transformers import pipeline
import json

client = QdrantClient(":memory:")  # 临时内存库
llm = pipeline("text-generation", model="llama3-8b-lora")

def search_logs(query, top_k=100):
    hits = client.search("logs", query_vector=encode(query), limit=top_k)
    return [h.payload["raw"] for h in hits]

def cluster_and_rank(logs):
    centers = h_cluster(logs, k=5)
    prompt = build_prompt(centers)
    return json.loads(llm(prompt, max_new_tokens=128)[0]["generated_text"])

if __name__ == "__main__":
    print(cluster_and_rank(search_logs("timeout")))

  1. 实测案例

场景 输入 输出根因 耗时

配置中心超时 500 条日志 `{"service":"config","file":"client.go","line":88,"reason":"连接池耗尽"}` 3 min

缓存击穿 1200 条日志 `{"service":"cache","file":"redis.go","line":42,"reason":"未设置随机过期时间"}` 4 min


  1. 性能 & 成本

指标 数值 备注

日志向量库 1.2 GB 7 天滚动

LLM 推理 14 tokens/s RTX 4090

单次根因 0.8 元 OpenAI 3.5 API

私有化 单卡 4090 成本 1.5 万


  1. 踩坑 & 调优

坑 解决

日志格式不统一 Filebeat processors 统一 JSON

向量检索噪声 Cross-Encoder 重排 Top-10

LLM 幻觉 返回 JSON Schema 校验 + 重试


  1. 一键部署
bash 复制代码
git clone https://github.com/sre-ai/root-cause
docker-compose up -d
# 浏览器打开 http://localhost:3000

  1. 结语:让根因定位从 2 小时到 2 分钟

当异常日志不再靠人工"肉眼扫描",

当大模型成为 SRE 的"温度计",

你会发现 "5 分钟恢复"不再是 KPI,而是日常。

如果这篇文章帮你少背一次锅,欢迎去仓库点个 Star ⭐;

也欢迎留言聊聊你让 LLM 定位过最离谱的根因!

相关推荐
焦点链创研究所6 小时前
Fusaka升级对以太坊都有哪些好处?
人工智能·科技·web3·去中心化·区块链
六行神算API-天璇6 小时前
技术实践:用大模型平台重构医疗数据分析Pipeline
人工智能·重构·数据挖掘·数据分析
跨境卫士情报站6 小时前
亚马逊格局巨变!AI 助手重构购物逻辑,卖家如何顺势突围?
大数据·人工智能·重构·产品运营·跨境电商·防关联
机器之心6 小时前
国产芯片也能跑AI视频实时生成了,商汤Seko 2.0揭秘幕后黑科技
人工智能·openai
hoiii1876 小时前
使用RPCA算法对图像进行稀疏低秩分解
人工智能·算法
Small___ming6 小时前
【人工智能数学基础】标准贝叶斯公式的一般化推导:从单一条件到任意多条件
人工智能·机器学习·概率论
世优科技虚拟人6 小时前
智慧政务从试点到普及:AI数字人一体机在政务大厅的深度应用分析
人工智能·大模型·智慧城市·数字人·政务·智慧政务·智能交互
一点一木6 小时前
🎙️ 2025 年主流 AI 语音输入工具测评:解锁高效生产力的关键
人工智能
JoannaJuanCV6 小时前
自动驾驶—CARLA仿真(10)tutorial_gbuffer demo
人工智能·机器学习·自动驾驶·carla
feifeigo1236 小时前
SVM分类在高光谱遥感图像分类与预测中的应用
算法·支持向量机·分类