2024-02-04(hive)

1.Hive中的分区表

可以选择字段作为表分区。

分区其实就是HDFS上的不同文件夹。

分区表可以极大的提高特定场景下Hive的操作性能。

2.分区语法

sql 复制代码
create table tablename(...) partitioned by (分区列 列类型, ...)
row format delimited fields terminated by '';

3.Hive中的分桶表

选择一个字段作为分桶字段

分桶表本质上是数据分开在不同的文件中

分区和分桶可以同时使用

4.为什么要用insert select的方式插入分桶表数据

需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。

5.分桶表能带来什么性能提升?

在基于分桶列做操作的前提下:

单值过滤

JOIN

GROUP BY

相关推荐
IT毕设梦工厂1 分钟前
大数据毕业设计选题推荐-基于大数据的国家医用消耗选品采集数据可视化分析系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·信息可视化·spark·毕业设计·数据可视化·bigdata
core51222 分钟前
Hive实战(一)
数据仓库·hive·hadoop·架构·实战·配置·场景
isfox6 小时前
Hadoop简介:分布式系统的基石与核心架构详解
hadoop
Lx3528 小时前
大规模Hadoop集群管理:运维经验与监控策略
大数据·hadoop
TTBIGDATA8 小时前
【Ambari监控】Ambari-Metrics 的分支研究
大数据·数据库·hadoop·ambari·bigtop·edp·hidataplus
IT学长编程9 小时前
计算机毕业设计 基于Hadoop的南昌房价数据分析系统的设计与实现 Python 大数据毕业设计 Hadoop毕业设计选题【附源码+文档报告+安装调试
大数据·hadoop·python·毕业设计·课程设计·毕业论文·豆瓣电影数据可视化分析
奋斗的蛋黄10 小时前
HDFS(Hadoop 分布式文件系统)知识点梳理
大数据·hadoop·hdfs
Lx3521 天前
Hadoop数据处理模式:批处理与流处理结合技巧
大数据·hadoop
皆过客,揽星河1 天前
Linux上安装MySQL8详细教程
android·linux·hadoop·mysql·linux安装mysql·数据库安装·详细教程
core5121 天前
Hive实战(二)
数据仓库·hive·hadoop