2024-02-04(hive)

1.Hive中的分区表

可以选择字段作为表分区。

分区其实就是HDFS上的不同文件夹。

分区表可以极大的提高特定场景下Hive的操作性能。

2.分区语法

sql 复制代码
create table tablename(...) partitioned by (分区列 列类型, ...)
row format delimited fields terminated by '';

3.Hive中的分桶表

选择一个字段作为分桶字段

分桶表本质上是数据分开在不同的文件中

分区和分桶可以同时使用

4.为什么要用insert select的方式插入分桶表数据

需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。

5.分桶表能带来什么性能提升?

在基于分桶列做操作的前提下:

单值过滤

JOIN

GROUP BY

相关推荐
走遍西兰花.jpg21 小时前
hive如何使用python脚本
数据仓库·hive·hadoop·python
德彪稳坐倒骑驴21 小时前
Hive电商分析项目 Azkaban自动化运行
hive·hadoop·自动化
yumgpkpm1 天前
Cloudera CDP/CMP华为鲲鹏版下 Spark应用加速,华为昇腾芯片的实用配置过程
hive·hadoop·elasticsearch·flink·kafka·hbase·cloudera
m0_748252381 天前
ervlet 编写过滤器
数据仓库·hive·hadoop
talle20212 天前
Hadoop分布式资源管理框架【Yarn】
大数据·hadoop·分布式
yumgpkpm2 天前
基于GPU的Spark应用加速 Cloudera CDP/华为CMP鲲鹏版+Nvidia英伟达联合解决方案
大数据·数据库·人工智能·hadoop·elasticsearch·spark·cloudera
talle20212 天前
Hadoop分布式文件系统【HDFS】
大数据·hadoop·hdfs
星火开发设计3 天前
深入浅出HDFS:分布式文件系统核心原理与实践解析
大数据·数据库·hadoop·学习·hdfs·分布式数据库·知识
Hello.Reader3 天前
Hadoop Formats 在 Flink 里复用 Hadoop InputFormat(flink-hadoop-compatibility)
大数据·hadoop·flink
橙露3 天前
大数据分析入门:Hadoop 生态系统与 Python 结合的分布式数据处理实践
hadoop·分布式·数据分析