技术栈

终态一致性

__土块__
11 天前
链路追踪·系统稳定性·故障排查·mcp协议·ai工程·生产实践·终态一致性
AI 后台 MCP 工具调用静默跳过:从链路断层到分层校验的治理实践在 AI 后台任务执行过程中,用户侧观察到部分本应由 MCP 协议调用的外部工具未被实际执行,但任务状态仍被标记为“成功”。前端无报错提示,日志中无异常堆栈,仅能在部分链路追踪片段中发现工具调用请求未发出。该问题在长链任务(>3 步)中复现率更高,短链任务相对稳定。
__土块__
20 天前
任务调度·系统稳定性·监控告警·重试机制·ai工程·状态机设计·终态一致性
AI 任务执行链路中的终态一致性治理:从静默卡住到分层巡检的工程实践在我们的 AI 任务执行系统中,用户提交一个多步骤任务(如文档解析 + 知识提取 + 报告生成)后,前端会显示“正在执行中”,但部分任务在运行数小时后仍未完成,既无结果返回,也无失败提示。这类任务在数据库中状态为 RUNNING,但实际执行节点早已失联或崩溃。用户侧表现为“静默卡住”,客服无法解释原因,技术侧也无告警触发。该问题影响约 5% 的复杂任务,主要集中在长链路、跨服务调用的场景中。本文将围绕这一现象,拆解技术链路,定位关键故障点,给出修复方案,并建立预防机制。
我是有底线的