本文由vivo 互联网服务器团队Yu Quan分享，本文收录时有内容修订和重新排版。

1、引言

如今，Android端的即时通讯IM这类应用想实现离线消息推送，难度越来越大（详见《Android P正式版即将到来：后台应用保活、消息推送的真正噩梦》、《Android保活从入门到放弃：乖乖引导用户加白名单吧》）。

于是，使用手机厂商自建的ROOM级消息推送通道进行IM离线消息推送是个不得不面对的问题，我们也正好借此文机会，一窥主流手机厂商的ROOM级推送通道的技术实现吧。

vivo手机的厂商级消息推送系统的现状是最高推送速度140w/s，单日最大消息量200亿，端到端秒级在线送达率99.9%。同时推送系统具备不可提前预知的突发大流量特点。

本文将要分享的是vivo技术团队针对消息推送系统的高并发、高时效、突发流量等特点，从长连接层容灾、逻辑层容灾、流量容灾、存储容灾等方面入手，如何保证百亿级厂商消息推送平台的高可用性的。

* 推荐阅读：vivo技术团队分享的另一篇消息推送技术文章《vivo手机上的系统级消息推送平台的架构设计实践》。

2、推送系统介绍

vivo推送平台是vivo公司向开发者提供的消息推送服务，通过在云端与客户端之间建立一条稳定、可靠的长连接，为开发者提供向客户端应用实时推送消息的服务，支持百亿级的通知/消息推送，秒级触达移动用户。

推送系统主要由3部分组成：

***1）***接入网关；
***2）***逻辑推送节点；
***3）***长连接。

其中，长连接负责与用户手机终端建立连接，及时把消息送达到手机终端。

推送系统的特点是：

***1）***并发高；
***2）***消息量大；
***3）***送达及时性较高。

下面将针对这几个方面来分享我们的技术实践。

3、长连接层容灾的技术实现

长连接是推送系统最重要的部分，长连接的稳定性直接决定了推送系统的推送质量和性能。因此，需要对长连接层做好容灾和实时调度能力。

3.1面临的问题

原有推送系统架构是长连接层都部署在华东，所有vivo IDC逻辑节点通过VPC与华东的Broker建立连接，手机端跟华东的broker进行长连接通信。

这种部署方式存在以下问题。

***1）***问题一：华北、华南手机都需要连接华东的Broker，地域跨度大，长连接网络稳定性和时效性相对较差。

***2）***问题二：逻辑层跟华东的Broker之间由一条VPC连接，随着业务的发展，推送流量越来越大，带宽会出现瓶颈，有超限丢包的风险。另外当该VPC出现故障时，会造成全网消息无法送达。

注：长连接层节点名为Broker。

原始长连接架构图：

3.2解决方法

基于以上架构存在问题，我们对架构进行了优化。即将Broker进行三地部署，分别部署在华北、华东、华南。

华北、华东、华南三地用户采用就近接入方式。

优化后的架构，不仅可以保证长连接网络稳定性和时效性。同时具有较强的容灾能力，华东、华南Broker通过云网跟华北Broker连接，华北Broker通过VPC与vivo IDC连接。当华北、华东、华南某个地区Broker集群故障或者公网故障，不会影响到全网设备收发消息。

三地部署后的架构图：

3.3进一步优化

但是上述这种方式还是存在一个问题，就是某个地区Broker集群故障或者公网故障，会出现该区域部分设备无法收到推送消息的情况。

针对上述单个地区异常导致该区域部分设备无法收到推送消息的问题，我们设计了一套流量调度系统，可以做到实时流量调度和切换。global scheduler节点负责策略调度和管理。

vivo phone进行注册时：dispatcher会下发多个地区的ip地址，默认情况下，进行就近连接。单多次连接失败后，尝试连接其他ip。当某个地区Broker出现长连接数瓶颈或者VPC出现故障，可以通过global scheduler节点下发策略，让该故障地区的设备重新从dispatcher获取新的ip集的ip，与其他地区Broker建立长连接，逻辑节点下发消息到重连后的Broker。等到该地区恢复后，可以重新再下发策略，进行回调。

流量调度系统图：

4、逻辑层容灾的技术实现

长连接层做好容灾后，逻辑层也需要做相应容灾。

之前我们逻辑层都部署在一个机房，不具备机房间容灾能力，当一个机房出现断电风险，会出现服务整体不可用问题，因此我们做"同城双活"部署方案改造。

逻辑层单活架构：

逻辑层分别在vivo IDC1和vivo IDC2进行部署，网关层根据路由规则将流量按照一定比例分别下发到两个IDC，实现逻辑层同城双活。

我们发现：数据中心还是只有一个，部署在vivo IDC1，根据成本、收益，以及多数据中心数据同步延迟问题综合考虑，数据中心暂时还是以单数据中心为主。

逻辑层双活架构：

5、流量容灾的技术实现

5.1概述

做好系统架构的容灾能力后，推送系统的网关层还需要应对突发流量做相应的应对措施，做好流量控制，保证系统稳定性。历史上，我们曾经因为热点和突发新闻事件，并发推送流量巨大，导致服务出现异常，可用性降低问题。

为了应对突发大流量，保证突发流量的情况下，系统可用性不变，同时能兼顾性能和成本。为此，我们分别对比了设计了以下两种方案。

5.2常规方案

常规的方案是一般是根据历史情况估算冗余部署大量机器，来应对突发流量。

单这种方式成本较高，突发流量可能只持续5分钟或更短时间，而系统为了满足5分钟突发流量，需要冗余部署大量机器。

一旦流量超过了部署机器可承担的上限，无法及时扩容，可能导致可用性下降，甚至出现雪崩效应。

传统方案下的推送架构：

那如何设计一套既可以控制成本，面对突发大流量弹性扩容，又保证消息不漏并兼顾推送性能的方案呢？

5.3优化方案

优化后的方案：

***1）***在原有架构的基础上，在接入层增加缓冲通道，当流量洪峰到来时，对于系统可处理的上限能力外的流量，打入缓冲队列；
***2）***通过消息队列形式，增加bypass接入层，限速消费消息队列；
***3）***在流量洪峰过去后，提升bypass消费速度，处理缓存队列消息；
***4）***bypass接入层通过docker部署，支持动态扩缩容，默认最小化集群，当消息队列积压很多，并且下游有能力处理时，提升消费速度，bypass根据CPU负载动态扩容，快速消费消息队列；
***5）***处理完毕后动态缩容。

消息队列：选用吞吐量较大的KAFKA中间件，并且与离线计算KAFKA集群共用，能充分利用资源。

bypass接入层：采用docker部署，支持根据CPU负载和时间动态扩缩容。默认最小集群部署。对于已知的流量高峰时段，可以提前扩容服务，保证流量快速处理。未知时段流量高峰，可以bypass接入层，根据CPU负载情况进行动态扩缩容。

增加缓存队列后的推送架构：