技术栈
生产实践
__土块__
7 小时前
系统稳定性
·
故障排查
·
任务编排
·
ai工程
·
生产实践
·
状态机设计
·
静默故障
AI 任务编排系统静默阻塞故障复盘:从状态机设计缺陷到分层调度与补偿机制的工程实践
2026 年初,我们上线了一套基于 Agent 的智能工单处理系统,用于自动解析用户提交的工单内容,调用 RAG 检索相关知识,并由多个子 Agent 协同完成分类、优先级判定、执行建议生成等任务。系统初期运行平稳,但在一次知识库大规模更新后,出现大量工单“卡在中间状态”的现象:前端显示“处理中”,但实际任务已停止推进,无错误日志,也无超时告警。
__土块__
14 天前
链路追踪
·
系统稳定性
·
故障排查
·
mcp协议
·
ai工程
·
生产实践
·
终态一致性
AI 后台 MCP 工具调用静默跳过:从链路断层到分层校验的治理实践
在 AI 后台任务执行过程中,用户侧观察到部分本应由 MCP 协议调用的外部工具未被实际执行,但任务状态仍被标记为“成功”。前端无报错提示,日志中无异常堆栈,仅能在部分链路追踪片段中发现工具调用请求未发出。该问题在长链任务(>3 步)中复现率更高,短链任务相对稳定。
__土块__
17 天前
可观测性
·
系统稳定性
·
事件驱动
·
缓存一致性
·
ai工程
·
生产实践
·
额度治理
AI 后台模型调用额度突降为零的治理复盘:从额度同步延迟到动态感知的稳定性实践
2026年4月中旬,某内部 AI 平台的后台管理界面中,多个租户的模型调用额度突然显示为 0,导致前端自动触发降级策略,大量请求被静默丢弃。用户侧表现为“无模型响应”,但服务本身未报错。该问题持续约 15 分钟后恢复,期间影响数百个活跃会话。
最初的↘那颗心
2 个月前
大模型
·
向量数据库
·
rag
·
spring ai
·
生产实践
Spring AI 生产避坑指南与 RAG 内存向量库实战
本文覆盖 Spring AI 应用落地过程中最常踩的五个生产级陷阱——Token 成本失控、API Key 泄露、并发限流、输出不稳定、日志监控缺失,并给出对应的解决方案与代码实现。随后从零讲解 RAG(检索增强生成)的核心原理,并基于 Spring AI 的 SimpleVectorStore 完成一个内存向量库的完整实战。面向有 Spring Boot 基础、正在用 Spring AI 做大模型应用开发的后端工程师。
我是有底线的