生产故障

__土块__8 天前
可观测性·系统稳定性·故障排查·监控告警·生产故障·rag系统·检索质量
知识库上线后检索静默失效:一次从监控盲区到分层治理的RAG故障复盘某电商客服知识库RAG系统上线两周后,运营反馈“很多常见问题答不上来”,但后台日志显示检索服务正常返回结果。进一步排查发现,用户高频问题如“退货流程”“优惠券使用”在知识库中存在对应文档,但模型始终无法正确引用。更诡异的是,检索接口的P99延迟稳定在80ms以内,召回率监控面板显示“正常”,无任何错误告警。
__土块__9 天前
可观测性·系统稳定性·生产故障·ai工程·会话记忆·故障复盘·后台设计
AI 会话记忆模块静默失效:一次从链路耦合到分层治理的工程复盘在 AI 应用中,会话记忆(Conversation Memory)是维持上下文连贯性的核心模块。尤其在多轮对话、RAG 增强、Agent 决策等场景中,记忆模块的稳定性直接影响用户体验与系统可靠性。我们的目标是构建一个高可用的记忆系统,确保在模型路由、工具调用、会话切换等复杂链路中,记忆读写始终可预期、可追踪、可恢复。
__土块__10 天前
线程池·可观测性·任务调度·系统稳定性·生产故障·ai工程·执行隔离
AI 任务调度器频繁超时:一次从线程争用到执行隔离的工程复盘2026 年 3 月中旬,某企业 AI 问答平台上线后,用户反馈“提交任务后长时间卡在‘处理中’状态”,部分任务在 30 秒后返回超时错误。初期怀疑是模型推理慢,但监控显示模型平均响应时间为 800ms,远低于超时阈值。进一步排查发现,任务调度器(Scheduler)自身成为瓶颈——尽管任务已成功入队,但实际执行延迟高达 15~25 秒。
Flycat_会飞的猫2 年前
生产故障
记一次Serializable序列化和反序列化导致的线上报错某个需求上线后告警群里面收到了报错的消息,报错摘要如下:Cannot deserialize; nested exception is org.springframework.core.serializer.support.SerializationFailedException: Failed to deserialize payload. Is the byte array a result of corresponding serialization for DefaultDeserializer?
smart哥2 年前
生产故障
啊?这也算事务?!作者简介:大家好,我是smart哥,前中兴通讯、美团架构师,现某互联网公司CTO 联系qq:184480602,加我进群,大家一起学习,一起进步,一起对抗互联网寒冬
我是有底线的