hive分区分桶、数据倾斜总结

一、hive的基本概念

hive是一个构建在hadoop上的数据仓库工具,可以将结构化的数据文件映射为一张数据库表并提供数据查询功能

二、hive的特点

(1)数据是存储在hdfs上

(2)底层是将sql转换为MapReduce任务进行计算

(3)执行程序是运行在yarn上

三、hive表数据如何修改

(1)可以删除原表,然后新建一个与原表的表名、表结构相同的表,然后将需要修改的值更改后重新复制到新表;

1) 创建一个新表,其结构与原表相同

sql 复制代码
CREATE TABLE tmp_table ...;

2) 使用INSERT语句,将原表中的数据复制到新表,并对需要修改的值进行更改

sql 复制代码
INSERT INTO TABLE tmp_table
SELECT col1,col2,CASE WHEN col3=修改值 THEN 新值 ELSE col3 END,col4,...
FROM src_table;

3) 删除原表

sql 复制代码
DROP TABLE src_table;

4) 将新表重命名为原表的名字

sql 复制代码
ALTER TABLE tmp_table RENAME TO src_table;
(2)也可以使用insert overwrite语句,结合where条件对需要修改的值更改过后,再将原表数据覆盖回去。
sql 复制代码
INSERT OVERWRITE TABLE src_table
SELECT col1,col2,col3,col4,... FROM src_table WHERE col3!=修改值
UNION ALL
SELECT col1原来值,col2原来值,col3新值,col4原来值,...;

四、hive分区表和桶表的区别

区别:从表现形式上来看:分区表是一个目录,而分桶表是一个文件;

从数量上来看:分区表的分区个数是可以增长的,而分桶表一旦指定完之后就不能增长;

从依据上来看:分区表需要手动添加分区,分区时依据的是表外字段,而分桶表是按照表内字段

从数据分布上来看:分区表在根据分区字段进行分区时可能会导致数据分布不均的情况,而分桶表是根据 hash值进行划分的,数据分布比较均匀。

五、如何给hive表增加一个分区

增加分区:通过alter修改表信息,然后在表名后面通过add添加一个经过判断后不存在的分区

删除分区同上,是通过drop删除一个经过判断后存在的分区

六、hive的数据倾斜

数据倾斜

hive的数据倾斜通常出现在MapReduce处理任务时,在不同节点并行处理数据的过程中,由于某一节点处理的数据远超其它节点的数据时,会导致此节点处理数据的时间远超出其它节点的时间甚至导致任务失败

原因及解决方案

(1)表关联时,关联字段null值过多;可以将空字段与非空字段分开检索,然后用union all合并查询结果,也可以使用外连接关联两表,然后对关联字段为的进行赋值,使其不为空;

(2)关联字段的数据类型不同;把不同的数据类型转为相同的;

(3)group by的维度过小,导致reduce处理一个分区的数据远多于另一个分区的数据;可以开

启Map端的聚合操作并设置groupby参数。

相关推荐
得物技术11 小时前
从“人治”到“机治”:得物离线数仓发布流水线质量门禁实践
大数据·数据仓库
小邓睡不饱耶12 小时前
Sqoop 实战:数据迁移核心案例、优化技巧与企业级落地
hive·hadoop·sqoop
沃达德软件15 小时前
重点人员动态管控系统解析
数据仓库·人工智能·hive·hadoop·redis·hbase
xianyinsuifeng15 小时前
RAG + Code Analysis 的标准路线
数据仓库·自动化·云计算·原型模式·aws
ruxshui16 小时前
个人笔记: 星环Inceptor/hive普通分区表与范围分区表核心技术总结
hive·hadoop·笔记
2501_9272835818 小时前
仓库升级进行时:当传统仓储遇到“四向穿梭车”
数据仓库·人工智能·自动化·wms·制造
Gain_chance19 小时前
26-学习笔记尚硅谷数仓搭建-DIM层特殊的维度表——用户维度表的建表、分析及DIM层数据装载脚本
数据仓库·hive·笔记·学习
TTBIGDATA1 天前
【Hue 】Hue 访问 YARN 返回 403 权限问题
大数据·hadoop·ambari·hdp·国产化·hue·bigtop
TTBIGDATA1 天前
【Knox】Knox 转发访问 Trino Web UI 返回 406 错误的原因与处理
大数据·运维·前端·hadoop·ui·ambari·hdp
Gain_chance2 天前
25-学习笔记尚硅谷数仓搭建-DIM层其余(优惠卷、活动、地区、营销坑位、营销渠道、日期)维度表建表语句、简单分析
数据仓库·笔记·学习