hive分区分桶、数据倾斜总结

一、hive的基本概念

hive是一个构建在hadoop上的数据仓库工具，可以将结构化的数据文件映射为一张数据库表并提供数据查询功能

（1）数据是存储在hdfs上

（2）底层是将sql转换为MapReduce任务进行计算

（3）执行程序是运行在yarn上

1）创建一个新表，其结构与原表相同

sql 复制代码

CREATE TABLE tmp_table ...;

2）使用INSERT语句，将原表中的数据复制到新表，并对需要修改的值进行更改

sql 复制代码

INSERT INTO TABLE tmp_table
SELECT col1,col2,CASE WHEN col3=修改值 THEN 新值 ELSE col3 END,col4,...
FROM src_table;

3）删除原表

sql 复制代码

DROP TABLE src_table;

4）将新表重命名为原表的名字

sql 复制代码

ALTER TABLE tmp_table RENAME TO src_table;

sql 复制代码

INSERT OVERWRITE TABLE src_table
SELECT col1,col2,col3,col4,... FROM src_table WHERE col3!=修改值
UNION ALL
SELECT col1原来值,col2原来值,col3新值,col4原来值,...;

区别：从表现形式上来看：分区表是一个目录，而分桶表是一个文件；

从数量上来看：分区表的分区个数是可以增长的，而分桶表一旦指定完之后就不能增长；

从依据上来看：分区表需要手动添加分区，分区时依据的是表外字段，而分桶表是按照表内字段

从数据分布上来看：分区表在根据分区字段进行分区时可能会导致数据分布不均的情况，而分桶表是根据 hash值进行划分的，数据分布比较均匀。

增加分区：通过alter修改表信息，然后在表名后面通过add添加一个经过判断后不存在的分区

删除分区同上，是通过drop删除一个经过判断后存在的分区

数据倾斜：

hive的数据倾斜通常出现在MapReduce处理任务时，在不同节点并行处理数据的过程中，由于某一节点处理的数据远超其它节点的数据时，会导致此节点处理数据的时间远超出其它节点的时间甚至导致任务失败

原因及解决方案：

（1）表关联时，关联字段null值过多；可以将空字段与非空字段分开检索，然后用union all合并查询结果，也可以使用外连接关联两表，然后对关联字段为的进行赋值，使其不为空；

（2）关联字段的数据类型不同；把不同的数据类型转为相同的；

（3）group by的维度过小，导致reduce处理一个分区的数据远多于另一个分区的数据；可以开

启Map端的聚合操作并设置groupby参数。