心里苦，了解业界常见服务发布手段~

前言

最近上线需求，服务发布成功后，不一会，告警群就开始滴滴滴，我一看，擦空指针了，赶紧根据堆栈以及error日志定位到问题代码的行数，根据代码调用上下文迅速判断出出现空指针场景，提了个fix上线，让leader审批下，然后就被批斗怎么每次都出bug......

哎，虽然在测试环境一切正常，但总有测不到的场景，一上线，问题就暴露出来了，而且不同于绝大多数公司存在单点部署，滚动升级的策略，我们发布就是 一把梭哈，出事了就回滚或者赶紧修

借这个坏心情，整理一下业界常见的服务上线发布方式及流程~

目前我们的服务部署了5台机器

称这种方式为梭哈毫不过分，即使发现告警后及时进行回滚，回滚也需要一定时间，错误代码承接了全部流量，纯纯的风险最大化的操作。

目前我们的服务部署了10台机器

通过上述发布流程，我们可以看到一个字: 稳，经过一段时间的单点部署、日志观察，我们能够及时的发现代码问题，将事故最小化

目前我们的服务部署了10台机器

蓝绿发布 存在与梭哈相似之处，都是新起同等数量的机器 ，不过在之后的流量切换上做了稳妥机制，采用逐步切流的方式，来减小可能的事故影响

最后在流量切换完毕后，不会尽快下掉旧机器，新旧机器会并行存在一段时间，避免可能因为业务场景流量小不能够及时暴露问题，等流量全切后才暴露出来

此时，由于旧机器还存在，回滚只需要切流量即可~

目前我们的服务部署了10台机器

灰度发布过程中引入了小部分流量进行验证，能够尽快发现问题，不过灰度发布一般容量有限，只会使用少部分机器，这样的话小流量情况下有些问题是无法暴露的，也算是一种缺点~

本文整理了业界一些常见服务发布方式及其流程，没有原理干货，hh，敬请谅解~