技术栈
数据倾斜
消失在人海中
2 个月前
java
·
数据库
·
数据倾斜
数据倾斜优化思路实践
数据倾斜,顾名思义,就是在计算过程中数据分散度不够,导致某个节点数据过于集中,从而导致任务执行效率大大降低。参照对比下MR的整体流程和ODPS,整体结合理解数据倾斜发生的几个生命周期的节点,如下图:可以分为Map、Reduce、Join三个阶段理解。
苡~
6 个月前
hive
·
hive优化
·
数据倾斜
·
hive常见异常
·
hive join
Hive SQL 开发指南(三)优化及常见异常
在大数据领域,Hive SQL 是一种常用的查询语言,用于在 Hadoop上进行数据分析和处理。为了确保代码的可读性、维护性和性能,制定一套规范化的 Hive SQL 开发规范至关重要。本文将介绍 Hive SQL 的基础知识,并提供一些规范化的开发指南,帮助您高效地编写 Hive SQL 查询。
苡~
7 个月前
hive
·
数据倾斜
·
hive建表语句
·
hive调优
·
hive map join
Hive SQL 开发指南(二)使用(DDL、DML,DQL)
在大数据领域,Hive SQL 是一种常用的查询语言,用于在 Hadoop上进行数据分析和处理。为了确保代码的可读性、维护性和性能,制定一套规范化的 Hive SQL 开发规范至关重要。本文将介绍 Hive SQL 的基础知识,并提供一些规范化的开发指南,帮助您高效地编写 Hive SQL 查询。
这个程序猿可太秀了
7 个月前
大数据
·
flink
·
数据倾斜
Flink流式数据倾斜
流式处理的数据倾斜和 Spark 的离线或者微批处理都是某一个 SubTask 数据过多这种数据不均匀导致的,但是因为流式处理的特性其中又有些许不同