2024-02-04(hive)

1.Hive中的分区表

可以选择字段作为表分区。

分区其实就是HDFS上的不同文件夹。

分区表可以极大的提高特定场景下Hive的操作性能。

2.分区语法

sql 复制代码
create table tablename(...) partitioned by (分区列 列类型, ...)
row format delimited fields terminated by '';

3.Hive中的分桶表

选择一个字段作为分桶字段

分桶表本质上是数据分开在不同的文件中

分区和分桶可以同时使用

4.为什么要用insert select的方式插入分桶表数据

需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。

5.分桶表能带来什么性能提升?

在基于分桶列做操作的前提下:

单值过滤

JOIN

GROUP BY

相关推荐
zhojiew19 小时前
[INFRA] EMR集群中Hive和Spark集成Glue Data Catalog过程的深入分析
hive·hadoop·spark·aws·bigdata
bukeyiwanshui20 小时前
Hive的使用
数据仓库·hive·hadoop
添柴少年yyds2 天前
hive锁机制
数据仓库·hive·hadoop
蓝眸少年CY2 天前
Hive - 安装与使用
数据仓库·hive·hadoop
旺仔小拳头..3 天前
Servlet概念与创建
数据仓库·hive·hadoop
旺仔小拳头..3 天前
Filter 过滤器 与Listener 监听器
数据仓库·hive·hadoop
晨晖23 天前
Servlet的快速入门,请求和响应
hive·hadoop·servlet
yumgpkpm3 天前
AI算力纳管工具GPUStack Server+华为鲲鹏+麒麟操作系统 保姆级安装过程
人工智能·hadoop·华为
hellolianhua3 天前
测试集群hdfs和mapreduce
大数据·hadoop·hdfs
smchaopiao4 天前
Hive中的排序与分桶技术详解
数据仓库·hive·hadoop