生产实践

__土块__15 天前
系统架构·rag系统·检索优化·生产实践·模块设计·静默故障·知识库工程
RAG 系统查不准问题的模块边界治理:从检索-生成解耦到指标闭环的工程实践在 2026 年 Q1 的一次线上迭代中,我们发现一个已稳定运行半年的 RAG 问答系统在知识库内容完整的情况下,仍然频繁返回“未找到相关信息”。用户反馈集中在“明明文档里写了,但 AI 就是答不出来”。初步排查显示:向量数据库有匹配结果、embedding 模型未变更、检索服务返回正常,但生成模块最终输出为空或无关内容。
__土块__16 天前
可观测性·系统稳定性·ai工程·生产实践·终态一致性·管理后台设计·指标归因
AI 系统后台可观测性治理:从请求链路断裂到分层指标归因的闭环设计在 2025 年底上线的一个 AI 客服系统中,业务方反馈“用户提问后偶尔无响应”,但后台日志显示模型已成功返回结果。运维团队检查调用链路,发现 LLM 调用、RAG 检索、工具执行均正常,唯独前端未展示。进一步排查发现,会话状态在“模型响应完成”后未正确流转至“待渲染”状态,导致前端轮询接口始终返回“处理中”。更严重的是,该问题在监控大盘中完全不可见——所有 SLI 指标(如 P99 延迟、成功率)均正常,因为“服务调用成功”被定义为“模型返回非空响应”,而状态流转失败被归类为“前端渲染问题”,未纳入核
__土块__16 天前
向量数据库·系统稳定性·故障排查·rag系统·检索优化·生产实践·静默故障
RAG 检索静默失效排查:从相似度阈值误设到分层召回治理的工程实践2026年Q1,某客服知识库问答系统上线后出现“知识库有内容但答不出”的静默故障。用户提问“如何重置企业邮箱密码”时,系统返回“抱歉,我暂时无法回答”,但知识库中存在多条相关文档,包括操作手册、FAQ条目和流程截图说明。该问题在测试环境未复现,生产环境日均影响约12%的查询请求,且无错误日志输出。
__土块__19 天前
故障治理·系统稳定性·会话管理·ai工程·生产实践·终态一致性·静默故障
AI 会话记忆模块静默失效治理:从状态丢失到分层终态校验的工程实践我们在 2025 年底上线了一个面向企业客服场景的 AI 会话系统,支持多轮对话、上下文记忆、工具调用和知识库检索。系统设计上采用分层架构:前端会话层、记忆管理模块、RAG 检索引擎、工具调度器和模型路由层。初期测试表现良好,但在灰度放量后,用户反馈“系统好像忘了我说过什么”,尤其在超过 5 轮对话后,AI 回复明显偏离上下文。
__土块__20 天前
系统稳定性·故障排查·任务编排·ai工程·生产实践·状态机设计·静默故障
AI 任务编排系统静默阻塞故障复盘:从状态机设计缺陷到分层调度与补偿机制的工程实践2026 年初,我们上线了一套基于 Agent 的智能工单处理系统,用于自动解析用户提交的工单内容,调用 RAG 检索相关知识,并由多个子 Agent 协同完成分类、优先级判定、执行建议生成等任务。系统初期运行平稳,但在一次知识库大规模更新后,出现大量工单“卡在中间状态”的现象:前端显示“处理中”,但实际任务已停止推进,无错误日志,也无超时告警。
__土块__1 个月前
链路追踪·系统稳定性·故障排查·mcp协议·ai工程·生产实践·终态一致性
AI 后台 MCP 工具调用静默跳过:从链路断层到分层校验的治理实践在 AI 后台任务执行过程中,用户侧观察到部分本应由 MCP 协议调用的外部工具未被实际执行,但任务状态仍被标记为“成功”。前端无报错提示,日志中无异常堆栈,仅能在部分链路追踪片段中发现工具调用请求未发出。该问题在长链任务(>3 步)中复现率更高,短链任务相对稳定。
__土块__1 个月前
可观测性·系统稳定性·事件驱动·缓存一致性·ai工程·生产实践·额度治理
AI 后台模型调用额度突降为零的治理复盘:从额度同步延迟到动态感知的稳定性实践2026年4月中旬,某内部 AI 平台的后台管理界面中,多个租户的模型调用额度突然显示为 0,导致前端自动触发降级策略,大量请求被静默丢弃。用户侧表现为“无模型响应”,但服务本身未报错。该问题持续约 15 分钟后恢复,期间影响数百个活跃会话。
最初的↘那颗心3 个月前
大模型·向量数据库·rag·spring ai·生产实践
Spring AI 生产避坑指南与 RAG 内存向量库实战本文覆盖 Spring AI 应用落地过程中最常踩的五个生产级陷阱——Token 成本失控、API Key 泄露、并发限流、输出不稳定、日志监控缺失,并给出对应的解决方案与代码实现。随后从零讲解 RAG(检索增强生成)的核心原理,并基于 Spring AI 的 SimpleVectorStore 完成一个内存向量库的完整实战。面向有 Spring Boot 基础、正在用 Spring AI 做大模型应用开发的后端工程师。
我是有底线的