spark （算子） groupBykey+Map 和 reduceBykey 的区别

GDDGHS_2024-11-10 13:34

1）面试题：groupByKey+map和reduceByKey都能实现分布式分组聚合，有什么区别？

groupByKey没有Map端聚合的操作，只做分组，必须等分区结束才能实现，最终map需要做整体聚合

reduceByKey是有Map端聚合操作，先分区内部聚合，再做分区间的聚合

reduceByKey直接分组聚合的性能要高于先做groupByKey再做聚合的方式

2）什么叫做map端的聚合？ --类似于MapTask中的Combiner

combiner --> map端的reduce操作

container --> yarn中运行任务时的资源管理包

executor --> spark的app应用在运行时，会产生两个进程，一个Driver，一类executor(执行spark中的job任务的)

Combiner --> 运行在map端的Reduce

上一篇：emr上使用sparkrunner运行beam数据流水线

下一篇：【架构设计常见技术】

热门推荐

012024年最新 iPhone手机历代机型、屏幕尺寸、纵横比、分辨率整理 02Coze实战第13讲：飞书多维表格读取+豆包生图模型，轻松批量生成短剧封面 03Coze扣子平台完整体验和实践（附国内和国际版对比）04MIUI显示/隐藏5G开关的方法，信号弱时开启手机Wifi通话方法 05手机电脑之间快速传输图片视频文件，不压缩画质、不限制大小的方法！06扣子（coze）实战|我用扣子搭建了一个自动分析小红薯笔记内容的AI应用|详细步骤拆解 07Word粘贴时出现“运行时错误53,文件未找到：MathPage.WLL“的解决方案 08华为昇腾 910B 部署 DeepSeek-R1 蒸馏系列模型详细指南 09DeepSeek各版本说明与优缺点分析 10Coze平台创建AI智能体的详细步骤指南