2024-02-04(hive)

1.Hive中的分区表

可以选择字段作为表分区。

分区其实就是HDFS上的不同文件夹。

分区表可以极大的提高特定场景下Hive的操作性能。

2.分区语法

sql 复制代码
create table tablename(...) partitioned by (分区列 列类型, ...)
row format delimited fields terminated by '';

3.Hive中的分桶表

选择一个字段作为分桶字段

分桶表本质上是数据分开在不同的文件中

分区和分桶可以同时使用

4.为什么要用insert select的方式插入分桶表数据

需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。

5.分桶表能带来什么性能提升?

在基于分桶列做操作的前提下:

单值过滤

JOIN

GROUP BY

相关推荐
士心凡33 分钟前
hadoop
大数据·hadoop·分布式
IIIIIILLLLLLLLLLLLL34 分钟前
Hadoop完全分布式安装
大数据·hadoop·分布式
一颗宁檬不酸42 分钟前
《Java Web 期末项目分享:MVC+DBUtils+c3p0 玩转数据库增删改查》——第一弹
数据仓库·hive·hadoop
丸码42 分钟前
Servlet生命周期全解析
数据仓库·hive·hadoop
士心凡42 分钟前
Hive教程
数据仓库·hive·hadoop
清平乐的技术专栏14 小时前
hive中with as用法及注意事项
数据仓库·hive·hadoop
larance1 天前
HIVE 基础
数据仓库·hive·hadoop
wei_shuo1 天前
openEuler 25.09 实操指南:飞腾 arm64 服务器的 C 程序开发与 Hadoop 伪集群部署及性能测试
hadoop·openeuler
跟着珅聪学java2 天前
Logback日志配置教程
数据仓库·hive·hadoop
yumgpkpm2 天前
腾讯TBDS和CMP(Cloud Data AI Platform,类Cloudera CDP,如华为鲲鹏 ARM 版)比较的缺陷在哪里?
hive·hadoop·elasticsearch·zookeeper·oracle·kafka·hbase