2024-02-04(hive)

1.Hive中的分区表

可以选择字段作为表分区。

分区其实就是HDFS上的不同文件夹。

分区表可以极大的提高特定场景下Hive的操作性能。

2.分区语法

sql 复制代码
create table tablename(...) partitioned by (分区列 列类型, ...)
row format delimited fields terminated by '';

3.Hive中的分桶表

选择一个字段作为分桶字段

分桶表本质上是数据分开在不同的文件中

分区和分桶可以同时使用

4.为什么要用insert select的方式插入分桶表数据

需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。

5.分桶表能带来什么性能提升?

在基于分桶列做操作的前提下:

单值过滤

JOIN

GROUP BY

相关推荐
泰克教育官方账号14 小时前
泰涨知识 | Hadoop的IO操作——压缩/解压缩
大数据·hadoop·分布式
qq_3814549916 小时前
大数据时代的分布式基石Hadoop
hadoop
满目山河•1 天前
二、复制三台虚拟机
hive·hadoop·hbase
zhixingheyi_tian2 天前
Hadoop 之 ENV
大数据·hadoop·分布式
小鹿学程序2 天前
任务一- 2.子任务二:Hadoop完全分布式安装配置
大数据·hadoop·分布式
yumgpkpm2 天前
Iceberg在Hadoop集群使用步骤(适配AI大模型)
大数据·hadoop·分布式·华为·zookeeper·开源·cloudera
清平乐的技术专栏3 天前
Hive SQL中COALESCE 函数和NVL()函数、IFNULL函数区别
hive·hadoop·sql
爱吃大芒果3 天前
Flutter 列表优化:ListView 性能调优与复杂列表实现
开发语言·hive·hadoop·flutter·华为
Yore Yuen3 天前
Hive内表修改字段类型及注意事项
数据仓库·hive·hadoop
梦里不知身是客113 天前
yarn向hive提交队列的方式
数据仓库·hive·hadoop