2024-02-04(hive)

1.Hive中的分区表

可以选择字段作为表分区。

分区其实就是HDFS上的不同文件夹。

分区表可以极大的提高特定场景下Hive的操作性能。

2.分区语法

sql 复制代码
create table tablename(...) partitioned by (分区列 列类型, ...)
row format delimited fields terminated by '';

3.Hive中的分桶表

选择一个字段作为分桶字段

分桶表本质上是数据分开在不同的文件中

分区和分桶可以同时使用

4.为什么要用insert select的方式插入分桶表数据

需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。

5.分桶表能带来什么性能提升?

在基于分桶列做操作的前提下:

单值过滤

JOIN

GROUP BY

相关推荐
神奇侠20245 小时前
Hive SQL常见操作
hive·hadoop·sql
TDengine (老段)18 小时前
TDengine 替换 Hadoop,彻底解决数据丢失问题 !
大数据·数据库·hadoop·物联网·时序数据库·tdengine·涛思数据
火龙谷2 天前
【hadoop】Davinci数据可视化工具的安装部署
大数据·hadoop·分布式
£菜鸟也有梦2 天前
从0到1,带你走进Flink的世界
大数据·hadoop·flink·spark
隰有游龙2 天前
hadoop集群启动没有datanode解决
大数据·hadoop·分布式
伍六星2 天前
图片上传问题解决方案与实践
大数据·hive·hadoop
后端码匠2 天前
Kafka 单机部署启动教程(适用于 Spark + Hadoop 环境)
hadoop·spark·kafka
TCChzp3 天前
Kafka入门-集群基础环境搭建(JDK/Hadoop 部署 + 虚拟机配置 + SSH 免密+Kafka安装启动)
java·hadoop·kafka
丸卜3 天前
Hadoop复习(九)
大数据·hadoop·分布式
xx155802862xx3 天前
hive聚合函数多行合并
数据仓库·hive·hadoop