spark (算子 ) groupBykey+Map 和 reduceBykey 的区别

1)面试题:groupByKey+map和reduceByKey都能实现分布式分组聚合,有什么区别?

  • groupByKey没有Map端聚合的操作,只做分组,必须等分区结束才能实现,最终map需要做整体聚合

  • reduceByKey是有Map端聚合操作,先分区内部聚合,再做分区间的聚合

  • reduceByKey直接分组聚合的性能要高于先做groupByKey再做聚合的方式

2)什么叫做map端的聚合? --类似于MapTask中的Combiner

combiner --> map端的reduce操作

container --> yarn中运行任务时的资源管理包

executor --> spark的app应用在运行时,会产生两个进程,一个Driver,一类executor(执行spark中的job任务的)

Combiner --> 运行在map端的Reduce

相关推荐
编程迪8 分钟前
基于Java和Vue开发的剪辑接单小程序APP软件系统源码
大数据
551只玄猫18 分钟前
【模块1 建立认知2】金融数据的类型与获取方式(附实战)
大数据·金融·数据科学·数据处理
亿信华辰软件35 分钟前
从单业态到多业态:主数据管理的策略、架构与实践
大数据
ctrigger39 分钟前
中国水利水电工程局有限公司
大数据
2603_954708311 小时前
交直流混合微电网架构:拓扑优化与功率交互设计
人工智能·分布式·物联网·架构·系统架构·能源
iiiiyu1 小时前
常用API(SimpleDateFormat类 & Calendar类 & JDK8日期 时间 日期时间 & JDK8日期(时区) )
java·大数据·开发语言·数据结构·编程语言
数字供应链安全产品选型1 小时前
2026 AI安全趋势展望:AI原生安全将成为企业刚需
大数据·人工智能
桌面运维家2 小时前
IDV云桌面vDisk机房课表联动部署方案
大数据·服务器·数据库
超级AI_mes2 小时前
化工MES解决方案:从配方管控到安全追溯的智慧转型
大数据·人工智能·5g·能源·制造·业界资讯·设备采集
Mr数据杨2 小时前
成人收入预测建模与信用评估应用
大数据·人工智能·机器学习·数据分析·kaggle