把大模型当“温度计”——基于 LLM 的分布式系统异常根因定位实战标签:AIOps、根因定位、可观测性、日志聚类、LLM、向量检索、Prometheus、ELK ---- 1. 背景:凌晨 3 点的 P0,定位 2 小时? 某电商大促,上千微服务并发飙升,告警电话连环轰炸: • Prometheus 500+ 指标飘红; • ELK 日志 10 GB/min 疯狂刷屏; • 最终人工翻日志 2 小时才定位到 一个配置中心超时。 领导发话:“能不能 5 分钟自动告诉我是哪一行配置?” 于是我们把 大模型 变成了 分布式系统的“温度计”,直接读出异常根因。 ---- 2.