AI 任务执行链路中的终态一致性治理:从静默卡住到分层巡检的工程实践在我们的 AI 任务执行系统中,用户提交一个多步骤任务(如文档解析 + 知识提取 + 报告生成)后,前端会显示“正在执行中”,但部分任务在运行数小时后仍未完成,既无结果返回,也无失败提示。这类任务在数据库中状态为 RUNNING,但实际执行节点早已失联或崩溃。用户侧表现为“静默卡住”,客服无法解释原因,技术侧也无告警触发。该问题影响约 5% 的复杂任务,主要集中在长链路、跨服务调用的场景中。本文将围绕这一现象,拆解技术链路,定位关键故障点,给出修复方案,并建立预防机制。