数仓开发那些事(11)某神州优秀员工:一闪,领导说要给我涨米。一闪:。。。。(着急的团团转)老运维:Oi,两个吊毛,看看你们的hadoop集群,健康度30分,怎么还在抽思谋克? ①Flink流作业(常驻任务,占用20个Container) ②Hive夜间ETL批处理(每日1次,需50个Container) ③Spark ML模型训练(每周执行,需80个Container) 近期频繁出现: ①Hive ETL超时3小时以上 ②Spark任务因ExitCode: 143被YARN强制终止 ③Flink作业反压报警持续10分钟/次