Hive-数据倾斜

在计算各省份的GMV时,有可能会发生数据倾斜,解决办法如下:

  1. 分组聚合
    1. 预聚合思想 map-side(预聚合在map里面)
    2. skew-groupby(多个reduce阶段进行汇总):先对倾斜的key加上随机数,均匀分发到不同的reduce,进行一次聚合,然后去掉随机数,再发到一个reduce进行聚合。
  2. 表与表的关联
    1. map-join:大表JOIN小表
    2. skew-join:如果检测到有key比较多的,那么单独开启一个mapjoin去计算,其他正常的使用common join
    3. 分桶join:大表JOIN大表
  3. 如何判断是key发生数据倾斜?
    1. limit
    2. table_sample 抽样函数
相关推荐
谅望者2 小时前
数据分析笔记01:数据分析概述
大数据·数据库·数据仓库·数据分析
尘世壹俗人3 小时前
分离Hadoop客户端单独使用
大数据·hadoop·分布式
BD_Marathon8 小时前
在 Linux 环境中配置 Eclipse 以开发 Hadoop 应用
java·hadoop·eclipse
CC-NX8 小时前
大数据安全技术实验:Hadoop环境部署
大数据·hadoop·分布式
q***766617 小时前
Spring Boot 从 2.7.x 升级到 3.3注意事项
数据库·hive·spring boot
秃头菜狗1 天前
十八、在slave01节点上安装Hadoop
服务器·hadoop·eclipse
q***3751 天前
Spring Boot 从 2.7.x 升级到 3.3注意事项
数据库·hive·spring boot
Hello.Reader1 天前
Flink CDC + StarRocks用 StarRocks Connector 打通实时明细与分析
数据仓库·adb·flink
muxue1782 天前
Hadoop集群搭建(上):centos 7为例(已将将安装所需压缩包统一放在了/opt/software目录下)
大数据·hadoop·centos