AI 任务执行链路中的终态一致性治理：从静默卡住到分层巡检的工程实践

背景：一个用户可感知的静默卡住问题

在我们的 AI 任务执行系统中，用户提交一个多步骤任务（如文档解析 + 知识提取 + 报告生成）后，前端会显示"正在执行中"，但部分任务在运行数小时后仍未完成，既无结果返回，也无失败提示。这类任务在数据库中状态为 RUNNING，但实际执行节点早已失联或崩溃。用户侧表现为"静默卡住"，客服无法解释原因，技术侧也无告警触发。该问题影响约 5% 的复杂任务，主要集中在长链路、跨服务调用的场景中。本文将围绕这一现象，拆解技术链路，定位关键故障点，给出修复方案，并建立预防机制。

用户症状：前端持续"正在思考"，任务无终态

用户在前端提交任务后，界面显示"AI 正在处理中"，进度条停滞。数小时后刷新页面，状态仍为"执行中"，无错误提示。客服反馈此类问题集中出现在涉及多个工具调用、外部服务依赖或大文档处理的场景中。用户无法判断是系统繁忙、任务失败还是网络中断，体验极差。

技术链路：从任务提交到终态回写的完整路径

任务提交 ：用户通过 API 提交任务，系统生成唯一任务 ID，写入任务表，状态设为 PENDING。
调度分发 ：任务调度器从队列中拉取任务，分配至执行节点，状态更新为 RUNNING。
执行阶段：执行节点调用多个子服务（如文档解析服务、向量检索服务、生成服务），通过异步消息或 HTTP 调用传递上下文。
结果回写 ：任一子服务完成后，尝试回写中间结果至任务表；全部完成后，回写终态 SUCCESS 或 FAILED。
前端轮询：前端定时轮询任务状态，展示给用户。

关键故障点：状态机缺陷、回写失败与监控盲区

1. 状态机未定义终态超时机制

任务一旦进入 RUNNING 状态，系统默认其会"最终完成"，但未设置最大执行时长。若执行节点崩溃、网络中断或子服务挂起，任务将永久停留在 RUNNING，无自动回滚或超时判定。

2. 回写操作缺乏重试与幂等保障

子服务完成计算后，调用任务中心 API 回写状态。若此时任务中心服务短暂不可用、网络抖动或数据库连接失败，回写请求失败。由于未实现重试机制，且回写接口非幂等，导致状态无法更新，形成"执行完成但未终态"的静默卡住。

3. 监控指标缺失关键终态覆盖率

现有监控聚焦于任务提交量、成功率、平均耗时等宏观指标，但缺少"终态覆盖率"（即 SUCCESS + FAILED 任务数 / 总提交数）和"RUNNING 任务存活时长分布"等关键指标。导致问题无法被及时发现。

4. 缺乏中心化超时巡检机制

系统依赖各执行节点自行上报心跳，但心跳机制未与任务状态绑定。部分节点因资源不足或进程僵死，停止上报，但任务仍被标记为 RUNNING，形成监控盲区。

修复方案：六态模型 + 分层重试 + 终态巡检

1. 引入六态模型，明确终态边界

将任务状态从原有的三态（PENDING, RUNNING, SUCCESS/FAILED）扩展为六态：

PENDING：待调度
RUNNING：执行中
TIMEOUT：执行超时（终态）
FAILED：执行失败（终态）
SUCCESS：执行成功（终态）
CANCELLED：用户主动取消（终态）

所有非终态任务必须在指定时间内进入终态，否则由巡检机制强制干预。

2. 实现回写接口的幂等与分层重试

幂等设计：回写接口基于任务 ID + 状态 + 时间戳生成唯一请求 ID，服务端通过 Redis 去重，确保同一状态多次回写仅生效一次。
分层重试 ：
- 首次回写失败：立即重试 1 次（间隔 1s）
- 仍失败：进入异步重试队列，最多重试 5 次（间隔 30s、1min、5min、15min、30min）
- 全部失败：触发告警，记录至死信日志，支持手动干预

3. 构建终态覆盖率监控与告警

新增以下监控指标：

终态覆盖率 = （SUCCESS + FAILED + TIMEOUT + CANCELLED）任务数 / 总提交任务数
RUNNING 任务平均存活时长
RUNNING 任务中超过 1 小时未更新的比例

告警策略：

终态覆盖率 < 98% 持续 10 分钟 → P2 告警
单个任务 RUNNING 状态超过 2 小时 → P3 告警
回写失败率 > 1% 持续 5 分钟 → P2 告警

4. 建立中心化终态巡检服务

部署独立巡检服务，定时扫描任务表中所有 RUNNING 状态任务：

每 5 分钟扫描一次
对超过最大执行时长（如 2 小时）的任务，标记为 TIMEOUT
对心跳最后上报时间超过 10 分钟的任务，触发健康检查，若节点不可达，则标记为 FAILED
巡检过程加分布式锁，避免重复处理

风险与边界：权衡一致性与性能开销

巡检频率与性能 ：巡检服务每 5 分钟扫描全量 RUNNING 任务，对数据库造成压力。解决方案：按任务创建时间分片扫描，或使用时间索引优化查询。
误判风险 ：若任务实际仍在运行但被误判为 TIMEOUT，可能导致重复执行。解决方案：在标记 TIMEOUT 前，先尝试向执行节点发送"状态确认"请求，若超时无响应再判定。
终态定义边界 ：TIMEOUT 是否为终态？是。一旦标记，任务不可恢复，需用户重新提交。此设计牺牲部分灵活性，换取系统可观测性与稳定性。

预防机制：从故障响应到长期治理

任务生命周期标准化：所有新接入任务必须定义最大执行时长，并在提交时校验。
回写接口强制幂等：任务中心 API 必须支持幂等，新服务接入需通过幂等测试。
终态覆盖率纳入 SLA：将终态覆盖率 ≥ 99% 纳入系统 SLA，作为稳定性核心指标。
巡检服务高可用部署：巡检服务部署为多实例 + Leader 选举，避免单点故障。
定期回溯分析 ：每月分析 TIMEOUT 任务根因，优化子服务性能或调整超时阈值。

总结

AI 任务执行链路的"静默卡住"问题，本质是终态一致性缺失与监控盲区共同导致的结果。通过引入六态模型、实现回写幂等与分层重试、构建终态覆盖率监控、部署中心化巡检服务，我们建立了从故障发现到自动修复的闭环机制。该方案已在生产环境稳定运行 3 个月，终态覆盖率从 92% 提升至 99.6%，用户投诉下降 80%。未来将进一步探索基于任务复杂度的动态超时策略，以及跨链路的分布式事务补偿机制。

技术补丁包

六态模型设计 原理：将任务生命周期划分为六个明确状态，确保所有非终态任务最终必须进入终态。设计动机：解决 RUNNING 状态无限挂起问题，提升系统可观测性。边界条件：TIMEOUT 为终态，不可恢复；需定义合理的最大执行时长。落地建议：在任务表中增加 status 字段（枚举类型），并在调度器与执行节点间同步状态变更事件。
回写接口幂等实现 原理：基于任务 ID + 状态 + 时间戳生成唯一请求 ID，服务端通过 Redis 去重。设计动机：防止网络重试导致状态重复更新，保障数据一致性。边界条件：Redis 需设置合理 TTL（如 24 小时），避免内存溢出。落地建议：在任务中心 API 层统一实现幂等拦截器，所有状态回写请求必须携带 request_id。
终态覆盖率监控指标 原理：统计终态任务占比，反映系统任务闭环能力。设计动机：将"静默卡住"问题量化，便于及时发现异常。边界条件：需排除用户主动取消的任务，避免干扰统计。落地建议：在 Prometheus 中定义 task_final_state_coverage 指标，Grafana 展示趋势图，配置告警规则。
中心化终态巡检服务 原理：定时扫描 RUNNING 任务，对超时或无心跳任务强制终态化。设计动机：弥补执行节点失联时的状态回写缺失。边界条件：巡检频率需权衡性能与实时性；需避免重复处理。落地建议：使用分布式锁（如 Redis RedLock）控制并发，按时间分片扫描任务表，记录处理日志。
分层重试策略 原理：根据失败场景设置不同重试间隔与次数，提升回写成功率。设计动机：应对短暂网络抖动或服务不可用，避免因单次失败导致状态丢失。边界条件：重试总时长不超过任务最大执行时长；需设置死信队列兜底。落地建议：使用消息队列（如 RocketMQ）实现异步重试，配置指数退避策略，失败任务转入死信 Topic 供人工处理。