2024-02-04(hive)

1.Hive中的分区表

可以选择字段作为表分区。

分区其实就是HDFS上的不同文件夹。

分区表可以极大的提高特定场景下Hive的操作性能。

2.分区语法

sql 复制代码
create table tablename(...) partitioned by (分区列 列类型, ...)
row format delimited fields terminated by '';

3.Hive中的分桶表

选择一个字段作为分桶字段

分桶表本质上是数据分开在不同的文件中

分区和分桶可以同时使用

4.为什么要用insert select的方式插入分桶表数据

需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。

5.分桶表能带来什么性能提升?

在基于分桶列做操作的前提下:

单值过滤

JOIN

GROUP BY

相关推荐
WL_Aurora10 小时前
Hadoop HA高可用架构深度解析
大数据·hadoop·架构
Irene199111 小时前
Windows 11 WSL Ubuntu 环境:实际安装 Hadoop 踩坑实录
linux·hadoop·ubuntu
Irene199111 小时前
(课堂笔记)Hive 分区、分桶与数据倾斜
hive·hadoop
二宝哥1 天前
大数据之安装Hadoop3.1.4
大数据·hadoop
Irene19912 天前
Windows 11 WSL Ubuntu 环境:安装 Hadoop 完整指南
hadoop·ubuntu
Irene19912 天前
(课堂笔记)Hive 基础
hive·hadoop
nassi_2 天前
对AI工程问题的一些思考
大数据·人工智能·hadoop
Irene19913 天前
(课堂笔记)hadoop 基础使用
hadoop
水火既济__3 天前
加快hive效率
数据仓库·hive·hadoop
lifewange4 天前
Hive 数据库 增删改 完整操作指南
数据库·hive·hadoop