第九篇:降级矩阵与 Token 限流 —— 生产系统的八道防线

生产系统不是在"一切正常"时体现价值的,是在"一切都在崩"的时候。

最坏情况推演

如第一篇决策5所述的最坏情况推演(Qwen API 超时 + Milvus OOM + Redis 断连 + BGE Embedding 挂了 + NebulaGraph 不可用),系统能退化到"Qwen2.5-1.5B-Instruct 本地 GPU 推理,无 RAG 增强直接回答"。不是完美的回答,但不是 500。基于这个推演,我们为此设计了以下八维降级矩阵。


八维降级矩阵

每条链路至少两条退路,独立降级:

功能点 L1 L2 L3
意图识别 规则过滤 FAISS 向量匹配 LLM → RAG 兜底
参数抽取 纯正则 本地 Qwen3-1.7B 云端 LLM
工具选择 规则过滤 FAISS HNSW ---(P0+P1 已覆盖,无需额外层)
Embedding 本地 BGE 切 BM25 空上下文(LLM 通用知识)
速率限制 Redis 滑动窗口 内存 Fallback 仅限请求数
Token 预估 HF tokenizers 字符估算 跳过限流
图查询 NebulaGraph 返回空 不影响主线
内容安全 规则引擎 本地 LLM 云端 LLM

Token 限流:为什么请求次数是最差的指标

A 用户每次只问"在吗",B 用户每次发 5000 字投诉------对 LLM 压力天差地别。

HF tokenizers 方案:100% 精度 + 11MB 依赖 + <200ms 加载。比 tiktoken(85%)准,比 transformers(500MB+)轻。LRU 缓存命中率 >80%,多轮对话只需首次编码。

三阶段限流:Pre-check 预估 → LLM 调用 → Post-report 修正。


降级 UX:什么时候告诉用户?

  • P2→云端 LLM(延迟 80→300ms):不告知
  • LLM→P1 Top-1(准确率 95%→85%):不告知,记录 flag
  • 全部不可用→必须告知

原则:降级是内部韧性,不是用户负担。

相关推荐
mONESY20 分钟前
LLM 两大核心底层:Token 分词、Embedding 语义向量化
架构
捧 花1 小时前
YoudaoNoteLM 分层混合 RAG 系统:从多源接入到智能问答的全链路技术架构
架构·llm·agent·rag
ai生成式引擎优化技术1 小时前
从参数驱动到认知行为驱动:SAI范式的理论转向与WSaiOS认知内核架构
python·架构·django·virtualenv·pygame
梦帮科技2 小时前
从零到一构建音乐版权公链:RNS Token 区块链基础设施与智能合约架构全解析
架构·区块链·智能合约
AI-好学者2 小时前
MCP企业运用全面知识点-进阶篇
开发语言·人工智能·python·架构
大明者省2 小时前
四大模态大模型训练体系全解析(架构+范式+分布式+算力成本·)
笔记·分布式·架构
木木的木云2 小时前
从零构建微前端框架:PavilionMfe 设计揭秘
前端·架构·vite
格子软件3 小时前
2026年分布式GEO代理架构:多租户动态数据源隔离与流控源码解构
java·vue.js·人工智能·分布式·架构·vue·geo
搭贝3 小时前
基于低代码平台的异构系统集成与业财一体化架构实践
架构
heimeiyingwang3 小时前
【架构实战】API网关设计与演进:从Nginx到自研网关
架构·istio·service_mesh