故障复盘

__土块__9 天前
可观测性·系统稳定性·生产故障·ai工程·会话记忆·故障复盘·后台设计
AI 会话记忆模块静默失效:一次从链路耦合到分层治理的工程复盘在 AI 应用中,会话记忆(Conversation Memory)是维持上下文连贯性的核心模块。尤其在多轮对话、RAG 增强、Agent 决策等场景中,记忆模块的稳定性直接影响用户体验与系统可靠性。我们的目标是构建一个高可用的记忆系统,确保在模型路由、工具调用、会话切换等复杂链路中,记忆读写始终可预期、可追踪、可恢复。
__土块__1 个月前
java·消息队列·rocketmq·线程池·支付系统·故障复盘·异步架构
一次支付清结算系统线程池故障复盘:从任务积压到异步解耦的架构演进凌晨三点,支付清结算系统的告警群突然炸响。「结算任务积压超过 50 万条,平均延迟 12 分钟,部分商户提现失败!」
递归尽头是星辰4 个月前
架构演进·架构复盘·故障复盘·技术沉淀·可复用经验
架构复盘方法论:如何从项目故障中沉淀可复用经验在技术项目落地与架构演进中,故障与问题是不可避免的常态,但真正拉开我们能力差距的,并非 “解决问题的数量”,而是 “从问题中沉淀可复用经验的质量”。本文结合实战案例,聚焦 “数据一致性冲突”“微服务循环依赖”“ES 深度分页优化” 等核心场景,拆解出 “故障还原 - 根因分层 - 方案迭代 - 效果验证 - 经验沉淀” 的闭环复盘方法论。通过分层分析 + 5Why 提问法穿透问题本质,将零散解法沉淀为编码规范、架构模板等可复用技术资产,助力开发者实现从 “被动救火” 到 “主动避坑”、从 “执行层” 到
我是有底线的