技术栈
链路监控
__土块__
19 天前
可观测性
·
rag系统
·
ai工程
·
管理后台设计
·
静默故障
·
agent系统
·
链路监控
AI 后台请求链路可观测性治理:从静默状态丢失到分层指标归因的工程实践
凌晨三点,值班群里跳出一条告警:用户反馈‘AI 助手没响应’,但后台任务状态显示‘已完成’。运维查了日志,模型调用返回 200,RAG 检索有结果,Agent 编排也走到了终态——可用户端就是没收到答案。这种‘链路通但体验断’的静默故障,在 AI 系统中越来越常见。问题不在单点,而在状态与观测的断层:系统知道‘做了什么’,但不知道‘做得好不好’。
__土块__
22 天前
巡检系统
·
rag系统
·
ai工程
·
静默故障
·
agent系统
·
链路监控
·
自动补偿
AI 巡检系统上线后静默漏报治理:从链路状态盲区到分层监控与自动补偿的设计实践
我们在 2025 年底上线了一套基于 RAG + Agent 的 AI 巡检系统,用于自动识别服务器异常日志、生成诊断建议并触发告警。初期测试效果良好,但在灰度放量阶段发现一个致命问题:系统日志显示任务全部执行成功,但实际漏报率高达 37%。更严重的是,由于缺乏有效监控,这一问题在两周内未被发现,导致多个关键服务异常未能及时处理。
我是有底线的