2024-02-04(hive)

1.Hive中的分区表

可以选择字段作为表分区。

分区其实就是HDFS上的不同文件夹。

分区表可以极大的提高特定场景下Hive的操作性能。

2.分区语法

sql 复制代码
create table tablename(...) partitioned by (分区列 列类型, ...)
row format delimited fields terminated by '';

3.Hive中的分桶表

选择一个字段作为分桶字段

分桶表本质上是数据分开在不同的文件中

分区和分桶可以同时使用

4.为什么要用insert select的方式插入分桶表数据

需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。

5.分桶表能带来什么性能提升?

在基于分桶列做操作的前提下:

单值过滤

JOIN

GROUP BY

相关推荐
黑客老李3 分钟前
区块链 智能合约安全 | 回滚攻击
服务器·数据仓库·hive·hadoop·区块链·php·智能合约
qzWsong2 小时前
hive 自动检测、自动重启、记录检测日志、自动清理日志
数据仓库·hive·hadoop
lisacumt6 小时前
【kerberos】使用keytab文件,kerberos认证工具类 scala版本
hadoop·scala
MasterNeverDown8 小时前
WPF 使用iconfont
hadoop·ui·wpf
B站计算机毕业设计超人21 小时前
计算机毕业设计hadoop+spark股票基金推荐系统 股票基金预测系统 股票基金可视化系统 股票基金数据分析 股票基金大数据 股票基金爬虫
大数据·hadoop·python·spark·课程设计·数据可视化·推荐算法
重生之Java再爱我一次1 天前
Hive部署
数据仓库·hive·hadoop
想做富婆1 天前
大数据,Hadoop,HDFS的简单介绍
大数据·hadoop·分布式
WorkAgent1 天前
windows下本地部署安装hadoop+scala+spark-【不需要虚拟机】
hadoop·spark·scala
重生之Java再爱我一次2 天前
Hadoop集群搭建
大数据·hadoop·分布式