Hive-数据倾斜

青云游子2023-08-02 14:33

在计算各省份的GMV时，有可能会发生数据倾斜，解决办法如下：

分组聚合
1. 预聚合思想 map-side（预聚合在map里面）
2. skew-groupby（多个reduce阶段进行汇总）：先对倾斜的key加上随机数，均匀分发到不同的reduce，进行一次聚合，然后去掉随机数，再发到一个reduce进行聚合。
表与表的关联
1. map-join：大表JOIN小表
2. skew-join：如果检测到有key比较多的，那么单独开启一个mapjoin去计算，其他正常的使用common join
3. 分桶join：大表JOIN大表
如何判断是key发生数据倾斜?
1. limit
2. table_sample 抽样函数

上一篇：Docker 部署 redis 举例

下一篇：Text-to-SQL小白入门（一）

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03AI科技热点日报 | 2026年07月01日 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）072026年AI技术突破与产业落地全景：从GPT-5到多模态智能体的新纪元 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09几个好用的ip纯净度检测网站 10Codex 下载安装指南：Windows 和 macOS 官方版下载