多模型路由上线后静默降级故障复盘：从健康检查失效到动态权重补偿

背景 / 现象

2026年4月，我们上线了一套多模型路由系统，用于在RAG问答链路中根据查询复杂度、成本预算和SLA要求动态选择底层模型（如通义千问、DeepSeek、GLM等）。初期灰度阶段表现稳定，但在全量发布后第3天，监控大盘出现异常：

核心业务线的平均响应时延上升40%，但错误率未明显波动；
成本监控显示高价位模型（如Qwen-Max）调用占比从预期的15%骤降至2%；
用户侧反馈"部分复杂问题回答质量下降"，但无明确报错。

初步排查发现，系统并未触发任何显式降级告警，日志中也无异常抛出------这是一次典型的静默降级故障。

问题拆解

系统目标

多模型路由系统的核心目标是：在保证SLA的前提下，通过智能调度实现成本与效果的平衡。具体包括：

根据query语义复杂度路由到合适模型；
在目标模型不可用时自动降级至备用模型；
支持动态权重调整以应对突发流量或模型性能波动。

模块职责

系统由三个关键模块组成：

路由决策引擎：基于query特征、历史成功率、当前配额计算最优模型；
健康检查服务：周期性探测各模型端点可用性，维护健康状态表；
流量分发器：执行最终路由，并记录调用指标用于反馈闭环。

核心冲突

故障期间，健康检查服务因网络抖动误判Qwen-Max为"不可用"，触发降级逻辑。但由于缺乏对"部分可用"状态的识别能力，系统直接将流量切至低阶模型（如Qwen-Turbo），而未考虑该模型对复杂query的处理能力不足，导致效果劣化。

更严重的是，降级后系统未自动恢复：即使Qwen-Max在5分钟后恢复，健康检查未触发"恢复上线"事件，路由策略仍持续使用低阶模型，形成静默锁定。

核心原因

健康检查机制过于二元化：仅判断"可达/不可达"，未引入响应时间、错误率等连续指标，无法识别"亚健康"状态；
降级策略缺乏效果兜底：降级仅关注可用性，未评估目标模型是否满足当前query的语义复杂度要求；
恢复机制缺失主动探测：健康恢复依赖固定周期轮询，未结合流量试探（canary probe）验证实际可用性；
监控维度割裂：成本、时延、效果三类指标分散在不同看板，缺乏统一异常聚合视图，导致问题被掩盖。

实现方案

1. 引入分层健康状态机

将模型健康状态从二元（UP/DOWN）扩展为五级：

HEALTHY：响应<200ms，错误率<0.5%；
DEGRADED：响应200~800ms 或错误率0.5%~2%；
UNSTABLE：响应>800ms 或错误率>2%；
DOWN：连续3次探测失败；
UNKNOWN：初始状态或配置异常。

状态转换基于滑动窗口统计（窗口大小60s，步长10s），避免瞬时抖动误判。

2. 动态权重补偿机制

当模型处于DEGRADED状态时，不立即剔除，而是降低其路由权重：

python 复制代码

# 伪代码：权重计算逻辑
def calculate_weight(model, base_weight=1.0):
    health_score = get_health_score(model)  # HEALTHY=1.0, DEGRADED=0.6, UNSTABLE=0.2
    cost_penalty = model.cost_per_1k / baseline_cost
    sla_bonus = 1.0 if model.avg_latency < sla_threshold else 0.8
    return base_weight * health_score * sla_bonus / cost_penalty

该机制允许系统在模型轻微劣化时仍保留部分流量，避免"全有或全无"式切换。

3. 效果感知降级策略

在路由决策中引入语义复杂度评分（基于query长度、实体数量、意图分类等），仅当备用模型的能力阈值 ≥ 当前query复杂度时，才允许降级。否则：

若存在同级可用模型，则切换至同级；
否则进入延迟队列，等待目标模型恢复或人工干预。

4. 主动恢复探测（Canary Probe）

对标记为DOWN的模型，每30秒发送一次低优先级探测请求（携带is_probe=true标识）。一旦连续2次成功，则自动提升至UNSTABLE状态，并分配5%流量进行验证，确认稳定后逐步提升至HEALTHY。

监控与兜底

关键监控项

| 监控维度 | 指标 | 告警阈值 | 用途 | |--------|------|--------|------| | 健康状态 | 模型状态分布 | DOWN占比 > 20% | 发现大规模故障 | | 路由质量 | 降级率 | > 10%持续5min | 识别异常降级 | | 效果兜底 | 低阶模型处理高复杂度query比例 | > 15% | 防止静默劣化 | | 恢复效率 | DOWN→HEALTHY平均耗时 | > 300s | 评估恢复机制有效性 |

兜底策略

全局熔断：当超过30%模型处于DOWN状态时，自动切换至预设的"保底模型"（如本地轻量模型），并通知运维；
人工干预通道：提供强制指定模型的路由覆盖接口，支持紧急场景手动调度；
事后复盘自动化：每次降级事件自动生成根因分析报告，包含流量变化、效果对比、成本影响。

风险与边界

复杂度上升：分层状态机增加运维理解成本，需提供可视化状态流转图；
探测开销：Canary Probe会增加约3%~5%的额外请求，需评估成本影响；
冷启动问题：新接入模型初始状态为UNKNOWN，前5分钟仅分配1%流量进行预热；
厂商限流干扰：部分厂商对高频探测请求会返回429，需在健康检查中区分"真故障"与"限流"。

最后总结

多模型路由系统的稳定性不仅依赖可用性探测，更需建立效果-成本-时延三位一体的决策框架。本次故障暴露了传统健康检查在AI工程场景下的局限性------单纯的网络可达性无法反映模型的实际服务能力。通过引入分层健康状态、动态权重补偿和效果感知降级，我们实现了从"被动响应"到"主动预防"的转变。后续将重点优化语义复杂度评估模型，并探索基于强化学习的自适应路由策略。

技术补丁包

分层健康状态机设计原理：将二元健康状态扩展为五级连续状态，基于滑动窗口统计响应时间和错误率设计动机：避免网络瞬时抖动导致误降级，同时识别"亚健康"模型边界条件：窗口大小需根据业务SLA调整，过小易误判，过大响应慢落地建议：使用Prometheus +自定义exporter实现状态采集，状态转换逻辑封装为独立服务
动态权重补偿算法原理：综合健康评分、成本系数、SLA达成率计算实时路由权重设计动机：在模型轻微劣化时保留部分流量，避免全量切换带来的震荡边界条件：权重更新频率不宜过高（建议≤10s），防止路由抖动落地建议：权重计算与路由决策解耦，通过gRPC暴露权重查询接口
效果感知降级策略原理：基于query语义复杂度与模型能力矩阵判断是否允许降级设计动机：防止低阶模型处理超出其能力范围的问题，避免静默效果劣化边界条件：复杂度评分需定期校准，避免与真实用户感知偏差过大落地建议：复杂度评分器可作为独立微服务，支持插件化扩展特征工程
Canary Probe主动恢复机制原理：对不可用模型周期性发送低优先级探测请求，验证恢复状态设计动机：解决传统轮询恢复延迟高的问题，实现快速自愈边界条件：探测请求需携带特殊标识，避免被计费系统误计为正常流量落地建议：探测频率采用指数退避策略，初始30s，最大间隔5min
三位一体监控体系原理：聚合健康状态、路由质量、效果兜底三类指标，构建统一异常视图设计动机：打破监控孤岛，快速定位静默故障边界条件：需定义跨维度关联规则（如"降级率上升+低阶模型高负载"视为高风险）落地建议：使用Grafana构建专用路由健康看板，集成告警聚合功能