Hive-数据倾斜

在计算各省份的GMV时,有可能会发生数据倾斜,解决办法如下:

  1. 分组聚合
    1. 预聚合思想 map-side(预聚合在map里面)
    2. skew-groupby(多个reduce阶段进行汇总):先对倾斜的key加上随机数,均匀分发到不同的reduce,进行一次聚合,然后去掉随机数,再发到一个reduce进行聚合。
  2. 表与表的关联
    1. map-join:大表JOIN小表
    2. skew-join:如果检测到有key比较多的,那么单独开启一个mapjoin去计算,其他正常的使用common join
    3. 分桶join:大表JOIN大表
  3. 如何判断是key发生数据倾斜?
    1. limit
    2. table_sample 抽样函数
相关推荐
RestCloud2 小时前
国产ETL数据集成软件和Informatica 相比如何
数据仓库·etl·数据集成工具·集成平台·informatica
尘客.2 小时前
DataX从Mysql导数据到Hive分区表案例
数据库·hive·mysql
yyywoaini~5 小时前
序列化和反序列化hadoop实现
hadoop·eclipse·php
薇晶晶5 小时前
hadoop中spark基本介绍
hadoop
hnlucky7 小时前
Windows 上安装下载并配置 Apache Maven
java·hadoop·windows·学习·maven·apache
尘世壹俗人14 小时前
hadoop.proxyuser.代理用户.授信域 用来干什么的
大数据·hadoop·分布式
2401_cf1 天前
为什么hadoop不用Java的序列化?
java·hadoop·eclipse
钊兵1 天前
hivesql是什么数据库?
大数据·hive
RestCloud1 天前
产品更新丨谷云科技 iPaaS 集成平台 V7.5 版本发布
数据仓库·系统安全·api·数字化转型·ipaas·数据集成平台·集成平台
RestCloud1 天前
数据清洗(ETL/ELT)原理与工具选择指南:企业数字化转型的核心引擎
数据仓库·数据安全·etl·数据集成·elt·集成平台