hdfs中MapReduce中的shuffle,combine和partitioner(hadoop,Hdfs)

1- MapReduce中shuffle阶段的工作流程以及何如优化该阶段?

分区 ,排序 ,溢写 ,拷贝到对应reduce机器上 ,增加combiner ,压缩溢写的文件

2-MapReduce中combine的作用,一般使用情景,那些情况不需要以及和reduce的区别?

1)Combiner的意义就是对每一个maptask的输出进行局部汇总 ,以减小网络传输量。

2)Combiner能够应用的前提是不能影响最终的业务逻辑 ,而且 ,Combiner的输出kv应该跟reducer的输入kv类型 要对应起来。

3)Combiner和reducer的区别在于运行的位置。

  • Combiner是在每一个maptask所在的节点运行;

  • Reducer是接收全局所有Mapper的输出结果

3- 如果没有定义partitioner,那数据在被送达reduce前是如何被区分的?

如果没有自定义的 partitioning,则默认的 partition 算法,即根据每一条数据的 key的 hashcode 值摸运算(%) reduce 的数量 ,得到的数字就是"分区号"。

相关推荐
私域实战笔记1 小时前
SCRM平台对比推荐:以企业微信私域运营需求为核心的参考
大数据·人工智能·企业微信·scrm·企业微信scrm
艾莉丝努力练剑2 小时前
【Git:基本操作】深度解析Git:从初始Git到熟悉基本操作
大数据·linux·c++·人工智能·git·gitee·指令
猫猫姐姐2 小时前
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
大数据·人工智能·sql·flink
武子康2 小时前
大数据-142 ClickHouse分片×副本×Distributed 实战 ReplicatedMergeTree、Keeper、insert_quorum
大数据·后端·nosql
月屯4 小时前
es大页读取
大数据·elasticsearch·搜索引擎
hexionly5 小时前
数据仓库·简介(一)
大数据·数据仓库
TDengine (老段)5 小时前
TDengine 数学函数 TRUNCATE 用户手册
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
TDengine (老段)5 小时前
TDengine 数据函数 CORR 用户手册
大数据·数据库·物联网·时序数据库·tdengine·1024程序员节
隐语SecretFlow11 小时前
【隐语SecretFlow】由蚂蚁集团牵头制定的“隐私保护计算安全分级”IEEE国际标准已正式发布!
大数据·网络·安全
微三云、小叶15 小时前
裂变速度提升300%!279模式如何盘活一个私域商城
大数据·软件开发·商业模式·小程序商城·本地生活·商业思维