Hive-数据倾斜

在计算各省份的GMV时,有可能会发生数据倾斜,解决办法如下:

  1. 分组聚合
    1. 预聚合思想 map-side(预聚合在map里面)
    2. skew-groupby(多个reduce阶段进行汇总):先对倾斜的key加上随机数,均匀分发到不同的reduce,进行一次聚合,然后去掉随机数,再发到一个reduce进行聚合。
  2. 表与表的关联
    1. map-join:大表JOIN小表
    2. skew-join:如果检测到有key比较多的,那么单独开启一个mapjoin去计算,其他正常的使用common join
    3. 分桶join:大表JOIN大表
  3. 如何判断是key发生数据倾斜?
    1. limit
    2. table_sample 抽样函数
相关推荐
viperrrrrrrrrr728 分钟前
大数据学习(137)-大数据组件运行时角色
大数据·hive·学习·flink·spark
江畔独步4 小时前
Doris与DS结合实现MySQL侧的Upsert功能
数据仓库·mysql·doris·upsert
安审若无7 小时前
Hive的索引使用如何优化?
数据仓库·hive·hadoop
青春之我_XP18 小时前
【基于阿里云搭建数据仓库(离线)】使用UDTF时出现报错“FlatEventUDTF cannot be resolved”
数据仓库·sql·阿里云·云计算·dataworks·maxcompute
小王不会写code1 天前
Hadoop 2.7.7 单机伪分布式安装与配置教程(JDK 8)
java·hadoop·分布式
zh_199951 天前
Hive面试题汇总
大数据·hive·hadoop·架构·面试题
Kookoos1 天前
ABP vNext + Spark on Hadoop:实时流处理与微服务融合
hadoop·微服务·spark·.net·abp vnext
是梦终空1 天前
JAVA毕业设计227—基于SpringBoot+hadoop+spark+Vue的大数据房屋维修系统(源代码+数据库)
hadoop·spring boot·spark·vue·毕业设计·源代码·大数据房屋维修系统
£菜鸟也有梦2 天前
Flume进阶之路:从基础到高阶的飞跃
大数据·hive·hadoop·flume
Kookoos2 天前
ABP vNext + Hive 集成:多租户大数据 SQL 查询与报表分析
大数据·hive·sql·.net·abp vnext