Hive-数据倾斜

在计算各省份的GMV时,有可能会发生数据倾斜,解决办法如下:

  1. 分组聚合
    1. 预聚合思想 map-side(预聚合在map里面)
    2. skew-groupby(多个reduce阶段进行汇总):先对倾斜的key加上随机数,均匀分发到不同的reduce,进行一次聚合,然后去掉随机数,再发到一个reduce进行聚合。
  2. 表与表的关联
    1. map-join:大表JOIN小表
    2. skew-join:如果检测到有key比较多的,那么单独开启一个mapjoin去计算,其他正常的使用common join
    3. 分桶join:大表JOIN大表
  3. 如何判断是key发生数据倾斜?
    1. limit
    2. table_sample 抽样函数
相关推荐
tumeng071113 小时前
HDFS的架构优势与基本操作
hadoop·hdfs·架构
蓝眸少年CY14 小时前
Hive - 函数、压缩与优化
数据仓库·hive·hadoop
仗剑_走天涯15 小时前
Hadoop 安装
大数据·hadoop·分布式
sunxunyong18 小时前
HDFS nnsdy重新配置启动
大数据·hadoop·hdfs
bukeyiwanshui18 小时前
Hadoop环境搭建
大数据·hadoop·分布式
Jianghong Jian18 小时前
HDFS常用的JAVA API
大数据·hadoop·hdfs
2501_9333295519 小时前
品牌公关的底层重构:Infoseek舆情系统如何用AI中台破解“按键伤企”难题
数据仓库·人工智能·重构·数据库开发
迈巴赫车主21 小时前
大数据:Hadoop(MapReduce)
大数据·hadoop·mapreduce
jasnet_u1 天前
CentOS上搭建hadoop-3.3.6集群(3节点)
hadoop·centos
hashiqimiya1 天前
windows的hadoop集群环境直接配
大数据·hadoop·分布式