2024-02-04(hive)

1.Hive中的分区表

可以选择字段作为表分区。

分区其实就是HDFS上的不同文件夹。

分区表可以极大的提高特定场景下Hive的操作性能。

2.分区语法

sql 复制代码
create table tablename(...) partitioned by (分区列 列类型, ...)
row format delimited fields terminated by '';

3.Hive中的分桶表

选择一个字段作为分桶字段

分桶表本质上是数据分开在不同的文件中

分区和分桶可以同时使用

4.为什么要用insert select的方式插入分桶表数据

需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。

5.分桶表能带来什么性能提升?

在基于分桶列做操作的前提下:

单值过滤

JOIN

GROUP BY

相关推荐
tsyjjOvO12 小时前
SpringMVC 从入门到精通
数据仓库·hive·hadoop
Francek Chen17 小时前
【大数据存储与管理】分布式数据库HBase:05 HBase运行机制
大数据·数据库·hadoop·分布式·hdfs·hbase
zzzzzwbetter18 小时前
Hadoop完全分布式部署-Master的NameNode以及Slaver2的DataNode未启动
大数据·hadoop·分布式
IvanCodes21 小时前
Hive IDE连接及UDF实战
ide·hive·hadoop
yumgpkpm21 小时前
华为昇腾910B 开源软件GPUStack的介绍(Cloudera CDH、CDP)
人工智能·hadoop·elasticsearch·flink·kafka·企业微信·big data
lifewange2 天前
Hive数据库
数据库·hive·hadoop
快乐非自愿3 天前
OpenClaw 生态适配:Hadoop/Hive 技能现状与企业级集成方案
大数据·hive·hadoop·分布式·openclaw
盛源_014 天前
hive表视图
数据仓库·hive·hadoop
success1124 天前
hadoop集群准备工作
大数据·hadoop·chrome
Francek Chen4 天前
【大数据存储与管理】分布式数据库HBase:04 HBase的实现原理
大数据·数据库·hadoop·分布式·hbase