spark (算子 ) groupBykey+Map 和 reduceBykey 的区别

1)面试题:groupByKey+map和reduceByKey都能实现分布式分组聚合,有什么区别?

  • groupByKey没有Map端聚合的操作,只做分组,必须等分区结束才能实现,最终map需要做整体聚合

  • reduceByKey是有Map端聚合操作,先分区内部聚合,再做分区间的聚合

  • reduceByKey直接分组聚合的性能要高于先做groupByKey再做聚合的方式

2)什么叫做map端的聚合? --类似于MapTask中的Combiner

combiner --> map端的reduce操作

container --> yarn中运行任务时的资源管理包

executor --> spark的app应用在运行时,会产生两个进程,一个Driver,一类executor(执行spark中的job任务的)

Combiner --> 运行在map端的Reduce

相关推荐
Deryck_德瑞克14 小时前
redis和分布式锁
分布式
徐徐同学14 小时前
cpolar为IT-Tools 解锁公网访问,远程开发再也不卡壳
java·开发语言·分布式
视界先声14 小时前
国产分布式存储替代VMware vSphere?:20+功能对比,一文了解SmartX
分布式
琅琊榜首202016 小时前
AI生成脑洞付费短篇小说:从灵感触发到内容落地
大数据·人工智能
TTBIGDATA17 小时前
【knox】User: knox is not allowed to impersonate admin
大数据·运维·ambari·hdp·trino·knox·bigtop
紧固视界17 小时前
了解常见紧固件分类标准
大数据·制造·紧固件·上海紧固件展
无忧智库18 小时前
跨国制造企业全球供应链协同平台(SRM+WMS+TMS)数字化转型方案深度解析:打造端到端可视化的“数字供应链“(WORD)
大数据
乐迪信息19 小时前
乐迪信息:AI防爆摄像机在船舶监控的应用
大数据·网络·人工智能·算法·无人机
Hernon19 小时前
AI智能体 - 探索与发现 Clawdbot >> Moltbot
大数据·人工智能·ai智能体·ai开发框架
Mikhail_G19 小时前
Mysql数据库操作指南——排序(零基础篇十)
大数据·数据库·sql·mysql·数据分析