可观测性

SRETalk19 小时前
可观测性·监控告警·nightingale·开源监控·夜莺监控·运维监控
开源夜莺 v9 AI 尝鲜版:给每个 SRE 配一个 7x24 在线的资深副驾驶做过 on-call 的人都熟悉这几个瞬间:这些事的共同点是:它们都依赖经验,而经验偏偏是团队里最稀缺、最难复制、最容易随人走的东西。
__土块__12 天前
可观测性·系统稳定性·ai工程·生产实践·终态一致性·管理后台设计·指标归因
AI 系统后台可观测性治理:从请求链路断裂到分层指标归因的闭环设计在 2025 年底上线的一个 AI 客服系统中,业务方反馈“用户提问后偶尔无响应”,但后台日志显示模型已成功返回结果。运维团队检查调用链路,发现 LLM 调用、RAG 检索、工具执行均正常,唯独前端未展示。进一步排查发现,会话状态在“模型响应完成”后未正确流转至“待渲染”状态,导致前端轮询接口始终返回“处理中”。更严重的是,该问题在监控大盘中完全不可见——所有 SLI 指标(如 P99 延迟、成功率)均正常,因为“服务调用成功”被定义为“模型返回非空响应”,而状态流转失败被归类为“前端渲染问题”,未纳入核
__土块__13 天前
可观测性·rag系统·ai工程·管理后台设计·静默故障·agent系统·链路监控
AI 后台请求链路可观测性治理:从静默状态丢失到分层指标归因的工程实践凌晨三点,值班群里跳出一条告警:用户反馈‘AI 助手没响应’,但后台任务状态显示‘已完成’。运维查了日志,模型调用返回 200,RAG 检索有结果,Agent 编排也走到了终态——可用户端就是没收到答案。这种‘链路通但体验断’的静默故障,在 AI 系统中越来越常见。问题不在单点,而在状态与观测的断层:系统知道‘做了什么’,但不知道‘做得好不好’。
观测云21 天前
可观测性·观测云
观测云集成泛微 E9 最佳实践泛微 E9 是企业常见的 OA 协同办公系统,承载流程审批、门户访问、表单提交、组织协作等核心业务。系统运行一段时间后,常见问题包括页面访问慢、流程提交卡顿、接口异常、日志排查困难等。
__土块__23 天前
可观测性·信息架构·mcp协议·rag系统·ai工程·管理后台设计·agent系统
AI 管理后台首页信息过载:从用户决策失效到摘要视图重构我们的 AI 管理后台在 2026 年 Q1 上线后,运营团队频繁反馈“首页密密麻麻,点进去不知道该看什么”。尽管接入了 RAG 检索日志、Agent 执行记录、MCP 工具调用统计等 12 类数据源,但关键决策点仍依赖人工翻查。在一次线上故障中,值班工程师因首页信息混乱未能及时发现 RAG 检索退化,导致推荐服务连续 3 小时返回低相关性结果。本文将复盘该问题,从用户可感知的决策失效出发,逐层拆解后台信息架构缺陷,最终输出一套可落地的首页摘要视图设计方法。
__土块__23 天前
可观测性·系统稳定性·ai工程·管理后台设计·静默故障·链路背压·异步探活
AI 管理后台稳定性治理:从静默超时到链路背压的监控体系设计2026 年 Q1,某 AI 内容生成平台上线后,运维团队连续三天收到用户反馈:“任务提交后无响应,页面始终显示‘处理中’”。前端无报错,任务状态未更新,但后台日志显示任务已触发。进一步排查发现,部分 Agent 工具调用因外部服务响应缓慢,导致线程池阻塞,后续任务排队积压,最终触发全局超时。更严重的是,该问题在管理后台的监控面板中几乎不可见——成功率仍为 99.8%,平均延迟正常,仅个别长尾请求超时。
zhojiew24 天前
可观测性·langfuse
使用Langfuse实现应用可观测性的实践(Prompt,RAGAS,Score)本文介绍如何使用开源 LLM 工程平台 Langfuse 对 GenAI 应用进行可观测性实践,涵盖追踪(Tracing)、Prompt 管理、评分(Scoring)和评估(Evaluation)等核心环节。
__土块__24 天前
状态机·可观测性·任务调度·系统稳定性·ai工程·静默故障·背压控制
AI 后台任务调度中的静默跳过治理:从链路背压到状态补偿的稳定性实践在 AI 后台任务调度系统中,一个典型的故障现象是:任务被成功触发,日志显示“已入队”,但最终无产出、无错误日志、无告警。用户侧表现为“任务消失了”。这类静默跳过问题在 RAG 文档处理、Agent 工具调用、定时模型推理等场景高频出现,排查成本极高。本文基于一次真实线上故障,还原从现象定位到根因分析,再到治理落地的完整过程,重点聚焦任务调度链路的稳定性治理。
观测云1 个月前
数据库·人工智能·可观测性·产品迭代·观测云
观测云4月产品升级报告 | 统一目录、Obsy AI 全新上线,基础设施、场景、监控告警、管理多项能力升级2026 年 4 月,我们收到不少用户反馈。我们把这些声音,一条条变成了产品更新,以下是本月最值得关注的 7 大升级亮点,每一个都为了让你的观测体验更顺滑、更贴合实际业务场景。
__土块__1 个月前
可观测性·系统稳定性·事件驱动·缓存一致性·ai工程·生产实践·额度治理
AI 后台模型调用额度突降为零的治理复盘:从额度同步延迟到动态感知的稳定性实践2026年4月中旬,某内部 AI 平台的后台管理界面中,多个租户的模型调用额度突然显示为 0,导致前端自动触发降级策略,大量请求被静默丢弃。用户侧表现为“无模型响应”,但服务本身未报错。该问题持续约 15 分钟后恢复,期间影响数百个活跃会话。
__土块__1 个月前
可观测性·链路追踪·任务调度·系统稳定性·故障排查·管理后台·ai工程
AI 后台任务调度成功但未执行:从链路追踪到巡检策略的稳定性治理实践2026 年 3 月,某 RAG 系统的后台定时任务模块出现异常:管理后台显示“任务已调度”,日志中也打印了调度成功记录,但下游模型服务未收到任何请求,知识库也未更新。用户反馈数据滞后,运维团队排查半天无法定位,最终通过链路追踪发现任务在中间件层被静默丢弃。
__土块__1 个月前
异常检测·可观测性·故障排查·信息架构·ai工程·管理后台设计·状态机建模
AI 管理后台首页信息过载治理:从指标泛滥到决策摘要的视图重构实践在一次线上故障排查中,我们发现 AI 管理后台首页堆积了超过 40 个监控指标卡片,涵盖任务总量、成功率、模型调用频次、RAG 召回率、Agent 工具触发数、MCP 心跳状态等维度。运维人员面对突发告警时,无法在 30 秒内定位核心异常点,最终通过临时切到日志平台才完成根因分析。这一现象暴露了当前 AI 管理后台普遍存在的信息架构问题:数据丰富但决策贫瘠。
__土块__1 个月前
可观测性·任务调度·系统稳定性·监控告警·重试机制·ai工程·状态机设计
AI 后台任务静默丢失的链路治理:从状态机缺陷到可观测性闭环的工程复盘2026 年 4 月初,我们上线了一套面向企业客户的 AI 内容生成平台,支持用户提交长文本生成任务,由后台 Agent 调用 RAG 系统完成内容创作。系统初期运行平稳,但在高并发时段频繁出现「任务提交成功但无结果返回」的静默丢失问题。前端显示任务状态为“已完成”,但用户未收到任何输出,且无错误日志。客服工单激增,运维团队无法通过现有监控定位问题。
__土块__1 个月前
状态机·可观测性·系统稳定性·故障排查·管理后台·监控告警·ai工程
AI 系统可观测性落地:从请求链路到管理后台的指标决策实践凌晨 2:17,一个用户反馈工单被自动打上了「AI 回复超时」标签。这条请求来自客服助手的对话接口,用户连续追问了三个问题,前两个秒回,第三个等了 12 秒才返回「抱歉,当前服务繁忙,请稍后再试」。日志显示模型调用成功,但响应体为空。前端没有重试,后端没有报错,监控大盘一切正常——直到我们打开管理后台的任务执行详情页,才发现这条请求在「结果回写」阶段被静默丢弃了。
__土块__1 个月前
可观测性·系统稳定性·故障排查·监控告警·生产故障·rag系统·检索质量
知识库上线后检索静默失效:一次从监控盲区到分层治理的RAG故障复盘某电商客服知识库RAG系统上线两周后,运营反馈“很多常见问题答不上来”,但后台日志显示检索服务正常返回结果。进一步排查发现,用户高频问题如“退货流程”“优惠券使用”在知识库中存在对应文档,但模型始终无法正确引用。更诡异的是,检索接口的P99延迟稳定在80ms以内,召回率监控面板显示“正常”,无任何错误告警。
观测云2 个月前
人工智能·可观测性·产品迭代·观测云
观测云产品更新 | 统一目录、Obsy AI、错误中心、场景、基础设施等新增“统一目录”功能模块:集中管理系统服务与云资源资产,提供实体维护、关系拓扑分析及全景架构视图能力。
__土块__2 个月前
可观测性·系统稳定性·生产故障·ai工程·会话记忆·故障复盘·后台设计
AI 会话记忆模块静默失效:一次从链路耦合到分层治理的工程复盘在 AI 应用中,会话记忆(Conversation Memory)是维持上下文连贯性的核心模块。尤其在多轮对话、RAG 增强、Agent 决策等场景中,记忆模块的稳定性直接影响用户体验与系统可靠性。我们的目标是构建一个高可用的记忆系统,确保在模型路由、工具调用、会话切换等复杂链路中,记忆读写始终可预期、可追踪、可恢复。
__土块__2 个月前
线程池·可观测性·任务调度·系统稳定性·生产故障·ai工程·执行隔离
AI 任务调度器频繁超时:一次从线程争用到执行隔离的工程复盘2026 年 3 月中旬,某企业 AI 问答平台上线后,用户反馈“提交任务后长时间卡在‘处理中’状态”,部分任务在 30 秒后返回超时错误。初期怀疑是模型推理慢,但监控显示模型平均响应时间为 800ms,远低于超时阈值。进一步排查发现,任务调度器(Scheduler)自身成为瓶颈——尽管任务已成功入队,但实际执行延迟高达 15~25 秒。
key_3_feng2 个月前
人工智能·可观测性
AI大模型时代的企业可观测性架构设计方案在AI大模型时代,传统的割裂式监控工具(如Prometheus监控基础设施、ELK日志分析、Jaeger链路追踪)已无法满足复杂AI系统的可观测需求。必须采用OpenTelemetry作为统一标准,构建端到端的可观测性基础设施。OTel提供跨语言SDK、统一数据模型和丰富的生态集成,能够无缝采集AI训练、推理、Agent交互等全链路数据。通过标准化的SpanContext传播机制,确保从用户请求到模型推理再到业务响应的完整链路可追溯,消除监控盲区。同时,建立统一的元数据管理体系,将业务标签(如用户ID、会
观测云2 个月前
aws·devops·可观测性·观测云
AWS DevOps Agent 接入观测云最佳实践AWS DevOps Agent 是 Amazon 推出的 AI 运维助手,让用户通过自然语言对话管理云资源、排查故障和生成基础设施代码。它深度集成 AWS 服务,可自动分析日志与指标,提供智能诊断和优化建议。核心价值在于降低运维技术门槛,提升故障响应效率,实现"人人可运维"的普惠目标。