hadoop解决数据倾斜的方法

分析&回答

1,如果预聚合不影响最终结果,可以使用conbine,提前对数据聚合,减少数据量。使用combinner合并,combinner是在map阶段,reduce之前的一个中间阶段,在这个阶段可以选择性的把大量的相同key数据先进行一个合并,可以看做是local reduce,然后再交给reduce来处理。

2,使用2次mr的方式。第一次mr,在map输出是给key加上一个前缀,则可以把相同的key分配到不同的reduce聚合,可以实现同一个key数据量大的问题;第二次mr对把第一次mr输出的数据的key去掉前缀,在聚合。

3,增加reduce个数,提示并行度。最容易造成的结果就是大量相同key被partition到一个分区,从而一个reduce执行了大量的工作,而如果我们增加了reduce的个数,这种情况相对来说会减轻很多,毕竟计算的节点多了,就算工作量还是不均匀的,那也要小很多。

4,自定义分区,自定义散列函数,把数据均匀分配到不同reduce。

喵呜面试助手:一站式解决面试问题,你可以搜索微信小程序 [喵呜面试助手] 或关注 [喵呜刷题] -> 面试助手 免费刷题。如有好的面试知识或技巧期待您的共享!

相关推荐
程序猿追6 小时前
在 HarmonyOS 模拟器上种出斐波那契螺旋线
大数据·人工智能·microsoft·华为·harmonyos
玄米乌龙茶1238 小时前
LLM成长笔记(十二):质量评估与可观测性
大数据·人工智能·笔记
oo哦哦9 小时前
星链引擎矩阵系统深度解析:AI驱动下的全域智能营销SaaS新范式
大数据·人工智能·矩阵
oo哦哦9 小时前
轻量化内容中台如何破解企业矩阵运营困局?以星链引擎为例的技术解析
大数据·人工智能·矩阵
weixin_4083180411 小时前
教育行业直播系统搭建指南
java·大数据·数据库
呆码科技11 小时前
适配多业态需求:零售、批发、跨境商贸的物流软件
大数据
东北甜妹11 小时前
Prometheus
大数据
小宋102111 小时前
Tycoon AI 新手快速上手指南
java·大数据·人工智能
lizhihai_9911 小时前
股市学习心得-PCB材料、制造、设备与耗材
大数据·人工智能·制造
cd_9492172111 小时前
工业溶剂行业合规发展新范式:以渥克化学为例,解析正规渠道与全域服务布局
大数据·人工智能