hdfs中MapReduce中的shuffle，combine和partitioner（hadoop，Hdfs）

longjunj2024-05-24 12:19

1- MapReduce中shuffle阶段的工作流程以及何如优化该阶段？

分区，排序，溢写，拷贝到对应reduce机器上，增加combiner ，压缩溢写的文件

2-MapReduce中combine的作用，一般使用情景，那些情况不需要以及和reduce的区别？

1）Combiner的意义就是对每一个maptask的输出进行局部汇总，以减小网络传输量。

2）Combiner能够应用的前提是不能影响最终的业务逻辑，而且，Combiner的输出kv应该跟reducer的输入kv类型要对应起来。

3）Combiner和reducer的区别在于运行的位置。

Combiner是在每一个maptask所在的节点运行；
Reducer是接收全局所有Mapper的输出结果

3- 如果没有定义partitioner，那数据在被送达reduce前是如何被区分的？

如果没有自定义的 partitioning，则默认的 partition 算法，即根据每一条数据的 key的 hashcode 值摸运算（%） reduce 的数量，得到的数字就是"分区号"。

上一篇：【Python】基于Python的性能优化

下一篇：C++---异常

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04Linux下V2Ray安装配置指南 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06GitLab 零基础入门指南：从安装到项目管理全流程 07jdk21下载、安装（Windows、Linux、macOS）08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）10Overleaf编译超时，超出免费计划编译时限（已解决）