hdfs中MapReduce中的shuffle,combine和partitioner(hadoop,Hdfs)

1- MapReduce中shuffle阶段的工作流程以及何如优化该阶段?

分区 ,排序 ,溢写 ,拷贝到对应reduce机器上 ,增加combiner ,压缩溢写的文件

2-MapReduce中combine的作用,一般使用情景,那些情况不需要以及和reduce的区别?

1)Combiner的意义就是对每一个maptask的输出进行局部汇总 ,以减小网络传输量。

2)Combiner能够应用的前提是不能影响最终的业务逻辑 ,而且 ,Combiner的输出kv应该跟reducer的输入kv类型 要对应起来。

3)Combiner和reducer的区别在于运行的位置。

  • Combiner是在每一个maptask所在的节点运行;

  • Reducer是接收全局所有Mapper的输出结果

3- 如果没有定义partitioner,那数据在被送达reduce前是如何被区分的?

如果没有自定义的 partitioning,则默认的 partition 算法,即根据每一条数据的 key的 hashcode 值摸运算(%) reduce 的数量 ,得到的数字就是"分区号"。

相关推荐
七夜zippoe7 分钟前
Elasticsearch核心概念与Java客户端实战 构建高性能搜索服务
java·大数据·elasticsearch·集群·索引·分片
vx_bisheyuange19 分钟前
基于SpringBoot的知识竞赛系统
大数据·前端·人工智能·spring boot·毕业设计
TDengine (老段)26 分钟前
TDengine C# 语言连接器入门指南
大数据·数据库·c#·时序数据库·tdengine·涛思数据
瑞华丽PLM1 小时前
AI+数字孪生赋能制造业数字化转型
大数据·人工智能·plm·国产plm·瑞华丽plm·瑞华丽
王九思1 小时前
大数据查询工具Hive介绍
大数据·hive·hadoop
檐下翻书1732 小时前
HR人力资源管理流程图在线绘制方法
大数据·人工智能·架构·流程图·论文笔记
无忧智库2 小时前
一网统飞:城市级低空空域精细化管理与服务平台建设方案深度解析(WORD)
大数据·网络·人工智能
木头程序员2 小时前
持续学习(Continual/Lifelong Learning)综述
大数据·人工智能·深度学习·机器学习
Hello.Reader2 小时前
Apache Cassandra Connector:Flink 与宽列存储的高吞吐协作
大数据·flink·apache
中國龍在廣州2 小时前
35天,成了AI 模型的斩杀线
大数据·人工智能·深度学习·算法·机器人