一般大家都推荐配置yarn.resourcemanager.am.max-attempts、yarn.application-attempt-failures-validity-interval和yarn.application-attempts
但是在yarn-site.xml里配置了却没生效哈哈
不生效的原因是因为flink提交application 时候fink会通过反射给yarn传过去,fink提供的这个参数默认值是10000也就是10s,这个参数意思是applicationMaster在设置的值范围内失败,会进行一次计数,像无限次重试是因为作业从启动am到失败时间超过10s了,所以就不会进行计数,那么appempt值一直是0,没超过预设的次数,所以就一直重试了
解决方案:在启动任务时显式设置interval覆盖flink默认值,在yarn-site.xml中配置没用
-Dyarn.application-attempt-failures-validity-interval=-1
-Dyarn.resourcemanager.am.max-attempts=3
-Dyarn.application-attempts=3
