hadoop解决数据倾斜的方法

分析&回答

1,如果预聚合不影响最终结果,可以使用conbine,提前对数据聚合,减少数据量。使用combinner合并,combinner是在map阶段,reduce之前的一个中间阶段,在这个阶段可以选择性的把大量的相同key数据先进行一个合并,可以看做是local reduce,然后再交给reduce来处理。

2,使用2次mr的方式。第一次mr,在map输出是给key加上一个前缀,则可以把相同的key分配到不同的reduce聚合,可以实现同一个key数据量大的问题;第二次mr对把第一次mr输出的数据的key去掉前缀,在聚合。

3,增加reduce个数,提示并行度。最容易造成的结果就是大量相同key被partition到一个分区,从而一个reduce执行了大量的工作,而如果我们增加了reduce的个数,这种情况相对来说会减轻很多,毕竟计算的节点多了,就算工作量还是不均匀的,那也要小很多。

4,自定义分区,自定义散列函数,把数据均匀分配到不同reduce。

喵呜面试助手:一站式解决面试问题,你可以搜索微信小程序 [喵呜面试助手] 或关注 [喵呜刷题] -> 面试助手 免费刷题。如有好的面试知识或技巧期待您的共享!

相关推荐
Gofarlic_OMS11 分钟前
ENOVIA基于Token的许可证消费模式分析与分点策略
java·大数据·开发语言·人工智能·制造
乐迪信息31 分钟前
乐迪信息:智慧港口AI防爆摄像机实现船舶违规靠岸自动抓拍
大数据·人工智能·算法·安全·目标跟踪
小天互连即时通讯1 小时前
政企信创即时通讯选型参考
大数据·网络·人工智能
小飞象—木兮1 小时前
《Power BI数据分析与可视化指南》:从概念到实操的全解析····(附相关材料下载)
大数据·人工智能·python·数据挖掘·数据分析
快递鸟社区1 小时前
快递鸟全球航空航班动态查询
大数据·人工智能
数据皮皮侠AI1 小时前
顶刊同款!中国地级市风灾风险与损失数据集(2000-2022)|灾害 / 环境 / 经济研究必备
大数据·人工智能·笔记·能源·1024程序员节
xiaoduo AI1 小时前
客服机器人自定义报表支持定时发送吗?智能 Agent + 邮件推送,能否自动生成运营日报?
大数据·人工智能·机器人
xcbrand1 小时前
政府事业机构品牌全案公司有哪些
大数据·人工智能·python
无忧智库2 小时前
破局与狂范:大模型上线备案与全栈架构合规深度解构指南(PPT)
大数据·架构
海兰2 小时前
Elasticsearch 容量规划与性能优化完全指南
大数据·elasticsearch·性能优化