技术栈
预聚合
流月up
1 年前
大数据
·
mapreduce
·
combiner
·
预聚合
5.MapReduce之Combiner-预聚合
在 MR、Spark、Flink 中,常用的减少网络传输的手段。 通常在 Reducer 端合并,shuffle 的数据量比在 Mapper 端要大,根据业务情况及数据量极大时,将大幅度降低效率;且预聚合这种方式也是有其缺点,不能改变业务最终的逻辑,否则会出现,计算结果不正确的情况。