2024-02-04(hive)

1.Hive中的分区表

可以选择字段作为表分区。

分区其实就是HDFS上的不同文件夹。

分区表可以极大的提高特定场景下Hive的操作性能。

2.分区语法

sql 复制代码
create table tablename(...) partitioned by (分区列 列类型, ...)
row format delimited fields terminated by '';

3.Hive中的分桶表

选择一个字段作为分桶字段

分桶表本质上是数据分开在不同的文件中

分区和分桶可以同时使用

4.为什么要用insert select的方式插入分桶表数据

需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。

5.分桶表能带来什么性能提升?

在基于分桶列做操作的前提下:

单值过滤

JOIN

GROUP BY

相关推荐
迈巴赫车主10 小时前
Hive中分组聚合导致的数据倾斜优化
数据仓库·hive·hadoop
段一凡-华北理工大学10 小时前
工业领域的Hadoop架构学习~系列文章13:数据湖架构 - 工业大数据的统一存储底座
大数据·人工智能·hadoop·分布式·架构·高炉炼铁·高炉智能化
段一凡-华北理工大学10 小时前
工业领域的Hadoop架构学习~系列文章14:Hadoop集群部署 - 从规划到上线的全流程实践
大数据·数据库·人工智能·hadoop·学习·架构·高炉炼铁
暴躁小师兄数据学院21 小时前
【AI大数据工程师特训笔记】第16讲:大数据环境安装
大数据·hadoop·笔记·flink·spark·database
段一凡-华北理工大学1 天前
工业领域的Hadoop架构学习~系列文章12:Hadoop集群监控与运维
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉炼铁智能化
Nefu_lyh1 天前
【Hive】02 Hive 分区与分桶:深入理解 Hive 分区与分桶的原理、执行过程、Bucket Map Join、SMB Join 以及最佳实践
数据仓库·hive·hadoop
段一凡-华北理工大学1 天前
工业领域的Hadoop架构学习~系列文章11:Kerberos安全认证
数据仓库·hadoop·学习·架构·高炉炼铁·工业智能体·高炉炼铁智能化
muddjsv1 天前
HBase与Hadoop:基于什么开发?深度剖析与架构图
数据库·hadoop·hbase
muddjsv1 天前
HBase 与 Hadoop 安装与上手使用全指导
数据库·hadoop·hbase
Nefu_lyh1 天前
【Hive】一、Hive数据类型:基本数据类型、复杂数据类型
数据仓库·hive·hadoop