2024-02-04(hive)

1.Hive中的分区表

可以选择字段作为表分区。

分区其实就是HDFS上的不同文件夹。

分区表可以极大的提高特定场景下Hive的操作性能。

2.分区语法

sql 复制代码
create table tablename(...) partitioned by (分区列 列类型, ...)
row format delimited fields terminated by '';

3.Hive中的分桶表

选择一个字段作为分桶字段

分桶表本质上是数据分开在不同的文件中

分区和分桶可以同时使用

4.为什么要用insert select的方式插入分桶表数据

需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。

5.分桶表能带来什么性能提升?

在基于分桶列做操作的前提下:

单值过滤

JOIN

GROUP BY

相关推荐
武子康1 天前
大数据-263 实时数仓-Canal 增量订阅与消费原理:MySQL Binlog 数据同步实践
大数据·hadoop·后端
仗剑_走天涯1 天前
zookeeper 安装与配置
hadoop·zookeeper
zhixingheyi_tian1 天前
hdfs.c 之解析
c语言·hadoop·hdfs
武子康2 天前
大数据-262 实时数仓 - Canal 同步数据实战指南 实时统计
大数据·hadoop·后端
武子康3 天前
大数据-261 实时数仓-建设指南:从架构设计到业务落地 交易订单、订单产品、产品分类、商家店铺、地域组织表
大数据·hadoop·后端
J2虾虾4 天前
Hadoop入门
大数据·hadoop·分布式
橘子编程5 天前
Hive大数据实战指南:从入门到精通
大数据·hive·hadoop
仗剑_走天涯5 天前
hadoop 执行mr任务出现找不到主类或无法加载主类解决方案
hadoop·mr
橘子编程5 天前
Apache Hadoop知识全解析
大数据·hive·hadoop·apache
顧棟6 天前
HDFS2.X升级3.X案例与相关Issue
大数据·hadoop·hdfs