在国际短信(A2P SMS)场景中,路由系统本质上是"把一条消息以最优路径送到目标运营商"的决策中枢。表面看是通道选择,实际上涉及质量、成本、合规、稳定性多维博弈。很多团队把它理解成简单的"通道轮询",这是导致送达率长期卡在80%~90%的根本原因。
这篇文章从工程实践出发,拆解一套可落地的全球短信路由系统设计逻辑。
一、路由系统的核心目标
一个成熟的路由系统,必须同时优化四个指标:
-
送达率(Delivery Rate)
-
时延(Latency)
-
成本(Cost per SMS)
-
稳定性(Stability / Failover能力)
这四者天然冲突,比如:
-
最便宜的通道,往往质量不稳定
-
最优直连线路,价格最高
-
多跳中转线路,延迟不可控
所以路由系统本质是一个多目标动态优化问题。
二、整体架构设计
从系统分层来看,全球短信路由通常拆成四层:
1. 接入层(Access Layer)
负责接收客户请求:
-
HTTP API
-
SMPP / CMPP / SGIP
关键点:
-
高并发处理(异步化)
-
请求标准化(统一消息结构)
2. 路由决策层(Routing Engine)
这是整个系统的"大脑",核心能力包括:
(1)静态路由规则
-
国家 / MCCMNC 匹配
-
运营商优先级
-
通道白名单 / 黑名单
示例:
+86 → China Mobile → 通道A
+91 → Airtel → 通道B / C(备选)
(2)动态路由策略
基于实时数据调整路径:
-
成功率(DLR反馈)
-
延迟统计(P99)
-
错误码分布(如 throttling、spam reject)
-
通道健康度
常见策略:
-
权重分配(Weighted Routing)
-
最优优先(Best Quality First)
-
成本优先(Least Cost Routing, LCR)
3. 通道管理层(Channel Layer)
抽象所有上游供应商能力:
-
直连运营商(Direct SS7 / SMPP Bind)
-
Aggregator(中间商)
-
灰度通道(特定场景)
关键设计:
-
通道能力模型(支持国家 / 运营商 / 内容类型)
-
QPS限制(TPS / Window Size)
-
错误码标准化
4. 数据与反馈层(Data & Feedback)
没有数据反馈的路由系统是"盲飞"。
核心数据包括:
-
MT提交成功率
-
DLR送达率(Delivered / Failed)
-
延迟分布(Submit → Deliver)
-
错误码统计(分运营商)
这些数据用于:
-
实时调权
-
通道降级 / 熔断
-
策略优化
三、核心设计能力拆解
1. 路由策略引擎(Rule Engine)
建议采用"规则 + 策略"分离设计:
-
规则层(Rule):决定"可走哪些路"
-
策略层(Strategy):决定"选哪一条最优"
这样可以避免硬编码,支持:
-
可视化配置
-
灰度发布
-
动态调整
2. 动态权重模型
最常见的工程实现:
综合评分 = α * 成功率 + β * 延迟 + γ * 成本 + δ * 稳定性
再通过评分进行权重分配,例如:
| 通道 | 成功率 | 延迟 | 成本 | 综合评分 |
|---|---|---|---|---|
| A | 98% | 1s | 高 | 0.92 |
| B | 92% | 3s | 低 | 0.85 |
→ 动态流量分配:A 70%,B 30%
3. 实时熔断与降级机制
必须具备"自愈能力",否则局部故障会放大:
熔断触发条件:
-
连续失败率 > 阈值(如20%)
-
超时率异常
-
DLR异常下降
降级策略:
-
自动切换备通道
-
降级到低质量但可用线路
-
限流(保护系统)
4. 灰度与A/B测试机制
很多团队忽略这一点,但它是提升送达率的关键:
-
新通道先跑5%流量
-
对比老通道数据
-
自动决策是否扩大流量
这能避免"全量切换导致事故"。
5. 内容与模板感知路由
不同内容,对通道要求不同:
-
验证码:高时效、高送达
-
营销短信:成本优先,但需合规
-
OTP(一次性密码):必须走优质直连
因此需要:
-
内容识别(模板ID)
-
业务标签路由(OTP / Marketing)
四、全球复杂性的工程挑战
1. 国家与运营商碎片化
-
一个国家多个运营商(如印度)
-
不同运营商策略不同(过滤规则差异极大)
解决:
- 精细化到 MCCMNC 级别路由
2. 反垃圾与内容审核
-
关键词过滤
-
Sender ID限制
-
模板报备机制
解决:
-
提前做内容合规分层
-
不同通道匹配不同Sender策略
3. DLR不可靠问题
现实情况:
- 很多国家 DLR缺失或延迟严重
解决:
-
建立"伪送达模型"(基于提交成功 + 历史数据预测)
-
多维度评估通道质量,而不是单纯依赖DLR
4. 时区与发送窗口
-
营销短信必须避开夜间
-
OTP必须实时
解决:
- 路由系统支持"时间策略"
五、典型优化实践
1. 双通道并发投递(关键OTP场景)
-
同时发两条不同通道
-
以最快到达为准
(成本翻倍,但转化率显著提升)
2. 智能重试机制
-
首次失败 → 切换运营商 → 再发
-
控制重试间隔(避免被识别为spam)
3. 区域优先路由
-
东南亚、本地直连优先
-
非核心市场走aggregator
4. 长期数据沉淀
-
国家维度质量画像
-
运营商级别评分体系
-
通道生命周期管理
六、总结
全球短信路由系统不是一个"技术模块",而是一个持续演进的"决策系统"。真正拉开差距的,不是你接了多少通道,而是:
-
是否有实时数据驱动的动态路由能力
-
是否具备自动熔断与自愈机制
-
是否能做到精细化到运营商级别调度
-
是否长期进行A/B测试与策略迭代
当这些能力逐步完善后,送达率从80%提升到95%,再到99%,就不再是运气,而是系统能力的必然结果。