2024-02-04(hive)

1.Hive中的分区表

可以选择字段作为表分区。

分区其实就是HDFS上的不同文件夹。

分区表可以极大的提高特定场景下Hive的操作性能。

2.分区语法

sql 复制代码
create table tablename(...) partitioned by (分区列 列类型, ...)
row format delimited fields terminated by '';

3.Hive中的分桶表

选择一个字段作为分桶字段

分桶表本质上是数据分开在不同的文件中

分区和分桶可以同时使用

4.为什么要用insert select的方式插入分桶表数据

需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。

5.分桶表能带来什么性能提升?

在基于分桶列做操作的前提下:

单值过滤

JOIN

GROUP BY

相关推荐
WL_Aurora17 小时前
YARN资源调度器深度解析 | 架构原理、作业提交流程
大数据·hadoop·yarn
vivo互联网技术1 天前
vivo 万台规模 YARN 集群升级实践
大数据·hadoop·yarn
黄金矿工Kingliu1 天前
经典hadoop案例应用(命令实现版)
大数据·服务器·hadoop
卷毛迷你猪1 天前
小肥柴的Hadoop之旅 快速实验篇(0-1)虚拟机模拟完全分布式环境搭建
大数据·hadoop·分布式
飞火流星020271 天前
Hadoop3.1.1集群+Hive3.1.0环境安装
大数据·hadoop·分布式·hadoop3.1.1集群安装·hive3.1.0安装
咖啡里的茶i2 天前
在Docker环境中安装Hadoop cluster 实验报告一
hadoop·docker·容器
白日与明月2 天前
Hive分桶机制应用
数据仓库·hive·hadoop
水火既济__2 天前
hive中加载json数据建表(大规模)
hive·hadoop·json
Volunteer Technology3 天前
HDFS源码(二)
大数据·hadoop·hdfs
WL_Aurora3 天前
MapReduce框架原理深度解析 | Shuffle机制、切片分区、Join全攻略
大数据·hadoop·mapreduce