技术栈
执行隔离
__土块__
5 小时前
线程池
·
可观测性
·
任务调度
·
系统稳定性
·
生产故障
·
ai工程
·
执行隔离
AI 任务调度器频繁超时:一次从线程争用到执行隔离的工程复盘
2026 年 3 月中旬,某企业 AI 问答平台上线后,用户反馈“提交任务后长时间卡在‘处理中’状态”,部分任务在 30 秒后返回超时错误。初期怀疑是模型推理慢,但监控显示模型平均响应时间为 800ms,远低于超时阈值。进一步排查发现,任务调度器(Scheduler)自身成为瓶颈——尽管任务已成功入队,但实际执行延迟高达 15~25 秒。
我是有底线的