生产实践

__土块__7 小时前
系统稳定性·故障排查·任务编排·ai工程·生产实践·状态机设计·静默故障
AI 任务编排系统静默阻塞故障复盘:从状态机设计缺陷到分层调度与补偿机制的工程实践2026 年初,我们上线了一套基于 Agent 的智能工单处理系统,用于自动解析用户提交的工单内容,调用 RAG 检索相关知识,并由多个子 Agent 协同完成分类、优先级判定、执行建议生成等任务。系统初期运行平稳,但在一次知识库大规模更新后,出现大量工单“卡在中间状态”的现象:前端显示“处理中”,但实际任务已停止推进,无错误日志,也无超时告警。
__土块__14 天前
链路追踪·系统稳定性·故障排查·mcp协议·ai工程·生产实践·终态一致性
AI 后台 MCP 工具调用静默跳过:从链路断层到分层校验的治理实践在 AI 后台任务执行过程中,用户侧观察到部分本应由 MCP 协议调用的外部工具未被实际执行,但任务状态仍被标记为“成功”。前端无报错提示,日志中无异常堆栈,仅能在部分链路追踪片段中发现工具调用请求未发出。该问题在长链任务(>3 步)中复现率更高,短链任务相对稳定。
__土块__17 天前
可观测性·系统稳定性·事件驱动·缓存一致性·ai工程·生产实践·额度治理
AI 后台模型调用额度突降为零的治理复盘:从额度同步延迟到动态感知的稳定性实践2026年4月中旬,某内部 AI 平台的后台管理界面中,多个租户的模型调用额度突然显示为 0,导致前端自动触发降级策略,大量请求被静默丢弃。用户侧表现为“无模型响应”,但服务本身未报错。该问题持续约 15 分钟后恢复,期间影响数百个活跃会话。
最初的↘那颗心2 个月前
大模型·向量数据库·rag·spring ai·生产实践
Spring AI 生产避坑指南与 RAG 内存向量库实战本文覆盖 Spring AI 应用落地过程中最常踩的五个生产级陷阱——Token 成本失控、API Key 泄露、并发限流、输出不稳定、日志监控缺失,并给出对应的解决方案与代码实现。随后从零讲解 RAG(检索增强生成)的核心原理,并基于 Spring AI 的 SimpleVectorStore 完成一个内存向量库的完整实战。面向有 Spring Boot 基础、正在用 Spring AI 做大模型应用开发的后端工程师。
我是有底线的