背景
在flink宣布作业失败的时候往往会进行重试,本文就来记录下flink中的几种重启策略
flink失败重启策略
1.固定延时重启 这种重启策略会重启固定的次数,每两次重启之间会间隔固定的时间间隔,如果失败次数达到了配置的次数限制,那么才宣布作业失败
2.故障率重启策略 这种重启策略会指定在某个时间间隔范围内,容许的最大重启次数限制,并且每两次重启之间也会间隔固定的时间间隔
3.不重启,这种策略是不开启checkpoint机制时的默认重启策略,也就是作业失败就失败了,不会重启
此外,重启也会根据重启的Task范围进行区分
1.Full重启策略,也就是重启时会把这个job的所有task都重启,这种策略是默认的重启策略,也是最简单的实现方式
2.Region重启策略,这种重启策略时只会把受故障影响的task对应的那些容器重启掉,比如只是某一条pineline下的task对应的容器重启,这种实现对于flink来说复杂一些