终态一致性

__土块__14 天前
可观测性·系统稳定性·ai工程·生产实践·终态一致性·管理后台设计·指标归因
AI 系统后台可观测性治理:从请求链路断裂到分层指标归因的闭环设计在 2025 年底上线的一个 AI 客服系统中,业务方反馈“用户提问后偶尔无响应”,但后台日志显示模型已成功返回结果。运维团队检查调用链路,发现 LLM 调用、RAG 检索、工具执行均正常,唯独前端未展示。进一步排查发现,会话状态在“模型响应完成”后未正确流转至“待渲染”状态,导致前端轮询接口始终返回“处理中”。更严重的是,该问题在监控大盘中完全不可见——所有 SLI 指标(如 P99 延迟、成功率)均正常,因为“服务调用成功”被定义为“模型返回非空响应”,而状态流转失败被归类为“前端渲染问题”,未纳入核
__土块__16 天前
故障治理·系统稳定性·会话管理·ai工程·生产实践·终态一致性·静默故障
AI 会话记忆模块静默失效治理:从状态丢失到分层终态校验的工程实践我们在 2025 年底上线了一个面向企业客服场景的 AI 会话系统,支持多轮对话、上下文记忆、工具调用和知识库检索。系统设计上采用分层架构:前端会话层、记忆管理模块、RAG 检索引擎、工具调度器和模型路由层。初期测试表现良好,但在灰度放量后,用户反馈“系统好像忘了我说过什么”,尤其在超过 5 轮对话后,AI 回复明显偏离上下文。
__土块__1 个月前
链路追踪·系统稳定性·故障排查·mcp协议·ai工程·生产实践·终态一致性
AI 后台 MCP 工具调用静默跳过:从链路断层到分层校验的治理实践在 AI 后台任务执行过程中,用户侧观察到部分本应由 MCP 协议调用的外部工具未被实际执行,但任务状态仍被标记为“成功”。前端无报错提示,日志中无异常堆栈,仅能在部分链路追踪片段中发现工具调用请求未发出。该问题在长链任务(>3 步)中复现率更高,短链任务相对稳定。
__土块__1 个月前
任务调度·系统稳定性·监控告警·重试机制·ai工程·状态机设计·终态一致性
AI 任务执行链路中的终态一致性治理:从静默卡住到分层巡检的工程实践在我们的 AI 任务执行系统中,用户提交一个多步骤任务(如文档解析 + 知识提取 + 报告生成)后,前端会显示“正在执行中”,但部分任务在运行数小时后仍未完成,既无结果返回,也无失败提示。这类任务在数据库中状态为 RUNNING,但实际执行节点早已失联或崩溃。用户侧表现为“静默卡住”,客服无法解释原因,技术侧也无告警触发。该问题影响约 5% 的复杂任务,主要集中在长链路、跨服务调用的场景中。本文将围绕这一现象,拆解技术链路,定位关键故障点,给出修复方案,并建立预防机制。
我是有底线的