组件和框架的初始化顺序背后可能隐藏着线上故障?

一个微服务可能引入非常多的SDK,例如消息中间件kafka的组件、RPC框架dubbo、定时任务调度平台xxl-job的组件,以及提供web服务的jetty/tomcat等。

你有注意过这些组件或框架的启动顺序吗?

说起Java的微服务开发,肯定离不开Spring Boot。而我们所使用的组件,都会通过Spring Boot提供的AutoConfiguration机制完成自动初始化。或者是我们自己封装的通过AutoConfiguration机制实现的初始化。

Spring Boot虽然提供Ordered机制实现排序,但如果都是开源的组件,背后不是同一个组件,那么大概率就是默认的要么最高、要么最低排序值。实际就是没有顺序。

当某个组件或框架初始化故障会发生什么?

假如rpc提供者先初始化注册到了zk,就会开始接收rpc消费者过来的流量,但是提供者处理逻辑需要发kafka消息,但是kafka如果初始化失败了,那么这批流量就会有问题。

假如xxl先初始化注册了,Job调度到这个节点执行,而执行逻辑依赖kafka,如果kafka生产者初始化失败,那么这次调度就会失败。假如jetty/tomcat先启动,就会开始接收用户流量,如果接着初始化其它以来的组件失败了,那么这些已经接收的用户流量就无法被正常处理。因此,如果发生组件初始化失败,就会出现流量处理异常,即服务不平滑上线,最终触发告警。

反方向也是一样的, Shutdown如果没有顺序的话,也可能会出现服务不平滑下线。例如,kafka组件先一步处理Shutdown信号,那么如果此时rpc接收到流量,需要依赖kafka处理逻辑,就会出现问题。

怎么定这些组件或框架的初始化顺序?

一般kafka的消费者和提供者是分开初始化的、rpc的消费者和提供者也是分开初始化的。

那么有没有一个顺序,能够避免上面所有假设的事件出现。

kafka生产者->rpc消费者->xxl->kafka订阅者->rpc提供者->jetty/tomcat

其中kafka生产者->rpc消费者这一段,kafka生产者和rpc消费者的顺序不分先后。

xxl->kafka订阅者->rpc提供者->jetty/tomcat,这一段,顺序也不分先后。

但是kafka生产者->rpc消费者必须先于xxl->kafka订阅者->rpc提供者->jetty/tomcat

因为xxl、kafka订阅者、rpc提供者、jetty/tomcat都是流量的入口。而kafka生产者、rpc消费者是流量的出口。

因此,只要出口先于入口初始化完成,基本就没什么问题。对于Shutdown,只要入口先于出口关闭,也不会有问题。

怎么指定顺序,指定顺序就能解决问题吗?

实际上,以上的假设成立的前提条件是,rpc消费者代理实例、kafka生产者实例这些【流量出口】都是用到的时候再创建的,或者说创建的时候内部初始化逻辑出错没有给外部抛异常,比如懒初始化,异步建连等。kafka提供者和zookeeper组件就是这样的逻辑。

如果初始化是同步的,并且发生错误会抛出异常,那么假设就不会成立。因为在Spring Boot框架之上开发,基本都是自动注入bean,而xxl的job也好,rpc提供者也好,kafka的消费者也好,都是通过依赖注入注入一个rpc消费者代理实例或者kafka生产者实例,而Spring Boot就已经保证了在注入之前肯定会先创建依赖的bean。

但是,KafkaProducer的内部初始化(与kafka服务端创建连接)是不在主线程上的,假如kafka服务端挂掉了,或者网络不通,这时候是不会抛异常的,只有在发消息的时候,才能得知异常。又或者topic忘记创建。我们没办法改变这种内部逻辑,也无法通过指定组件初始化顺序解决这个问题:Zookeeper的话,我们可以通过阻塞等待创建连接完成,但KafkaProducer无法做到。

另外,Shutdown的逻辑也是无顺序的,如果都是各自注册ShutdownHook。但如果是需要显示调用Close,我们就可以自己完成所有组件和框架的Shutdown逻辑和编排顺序。

相关推荐
IT_陈寒2 小时前
Python开发者必知的5大性能陷阱:90%的人都踩过的坑!
前端·人工智能·后端
顺风尿一寸3 小时前
从 Java NIO poll 到 Linux 内核 poll:一次系统调用的完整旅程
java
流浪克拉玛依3 小时前
Go Web 服务限流器实战:从原理到压测验证 --使用 Gin 框架 + Uber Ratelimit / 官方限流器,并通过 Vegeta 进行性能剖析
后端
程途知微3 小时前
JVM运行时数据区各区域作用与溢出原理
java
孟沐3 小时前
保姆级教程:手写三层架构 vs MyBatis-Plus
后端
星浩AI3 小时前
让模型自己写 Skills——从素材到自动生成工作流
人工智能·后端·agent
华仔啊5 小时前
为啥不用 MP 的 saveOrUpdateBatch?MySQL 一条 SQL 批量增改才是最优解
java·后端
武子康6 小时前
大数据-242 离线数仓 - DataX 实战:MySQL 全量/增量导入 HDFS + Hive 分区(离线数仓 ODS
大数据·后端·apache hive
砍材农夫6 小时前
TCP和UDP区别
后端
千寻girling7 小时前
一份不可多得的 《 Django 》 零基础入门教程
后端·python·面试