第九篇:降级矩阵与 Token 限流 —— 生产系统的八道防线

生产系统不是在"一切正常"时体现价值的,是在"一切都在崩"的时候。

最坏情况推演

如第一篇决策5所述的最坏情况推演(Qwen API 超时 + Milvus OOM + Redis 断连 + BGE Embedding 挂了 + NebulaGraph 不可用),系统能退化到"Qwen2.5-1.5B-Instruct 本地 GPU 推理,无 RAG 增强直接回答"。不是完美的回答,但不是 500。基于这个推演,我们为此设计了以下八维降级矩阵。


八维降级矩阵

每条链路至少两条退路,独立降级:

功能点 L1 L2 L3
意图识别 规则过滤 FAISS 向量匹配 LLM → RAG 兜底
参数抽取 纯正则 本地 Qwen3-1.7B 云端 LLM
工具选择 规则过滤 FAISS HNSW ---(P0+P1 已覆盖,无需额外层)
Embedding 本地 BGE 切 BM25 空上下文(LLM 通用知识)
速率限制 Redis 滑动窗口 内存 Fallback 仅限请求数
Token 预估 HF tokenizers 字符估算 跳过限流
图查询 NebulaGraph 返回空 不影响主线
内容安全 规则引擎 本地 LLM 云端 LLM

Token 限流:为什么请求次数是最差的指标

A 用户每次只问"在吗",B 用户每次发 5000 字投诉------对 LLM 压力天差地别。

HF tokenizers 方案:100% 精度 + 11MB 依赖 + <200ms 加载。比 tiktoken(85%)准,比 transformers(500MB+)轻。LRU 缓存命中率 >80%,多轮对话只需首次编码。

三阶段限流:Pre-check 预估 → LLM 调用 → Post-report 修正。


降级 UX:什么时候告诉用户?

  • P2→云端 LLM(延迟 80→300ms):不告知
  • LLM→P1 Top-1(准确率 95%→85%):不告知,记录 flag
  • 全部不可用→必须告知

原则:降级是内部韧性,不是用户负担。

相关推荐
一水鉴天11 小时前
不确定性问题确定解的 DevOps 九宫格内核 20260612(腾讯元宝)
人工智能·架构
小短腿的代码世界11 小时前
Qt行情协议解析与二进制编解码优化:从FIX到自定义协议的全链路架构
开发语言·qt·架构
是温不嗜温13 小时前
QR 准谐振反激架构:当下中小功率快充的主流选择
架构·电源管理·电源芯片·ac-dc
AI焦点13 小时前
2026年AI应用架构:如何避坑并选对API聚合中转服务?
大数据·人工智能·架构
TOPGO智能13 小时前
AI PC 端侧 AI 实战:知易智能知识管家的全栈架构与踩坑实录
人工智能·架构·高通开发
JGDT_18 小时前
ERP重塑与未来趋势:SAP的实践及大一统格局(上)
大数据·人工智能·安全·架构·开源
小短腿的代码世界18 小时前
Qt对象树析构链与智能指针协同:零泄漏内存管理架构
开发语言·qt·架构
AI科技星18 小时前
数术江湖·全卷合集 - 硬核江湖・数理史诗
android·人工智能·架构·概率论·学习方法
John_ToDebug19 小时前
Chromium 132→148 升级实战:Legacy IPC 消息丢失问题深度解析
c++·chrome·ai·架构