2024-02-04(hive)

1.Hive中的分区表

可以选择字段作为表分区。

分区其实就是HDFS上的不同文件夹。

分区表可以极大的提高特定场景下Hive的操作性能。

2.分区语法

sql 复制代码
create table tablename(...) partitioned by (分区列 列类型, ...)
row format delimited fields terminated by '';

3.Hive中的分桶表

选择一个字段作为分桶字段

分桶表本质上是数据分开在不同的文件中

分区和分桶可以同时使用

4.为什么要用insert select的方式插入分桶表数据

需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。

5.分桶表能带来什么性能提升?

在基于分桶列做操作的前提下:

单值过滤

JOIN

GROUP BY

相关推荐
梦里不知身是客1110 小时前
hive中metastore 服务的意义
数据仓库·hive·hadoop
计算机毕业编程指导师10 小时前
【Python大数据选题】基于Spark+Django的电影评分人气数据可视化分析系统源码 毕业设计 选题推荐 毕设选题 数据分析 机器学习
大数据·hadoop·python·计算机·spark·django·电影评分人气
梦里不知身是客1113 小时前
hive让分区关联数据的三种方式
数据仓库·hive·hadoop
m0_740043732 天前
Spring_全面详解入门
数据仓库·hive·hadoop
皓空揽月2 天前
windows安装hadoop2.7.2教程(单机版)
hadoop·windows
阿杰同学3 天前
Hadoop 面试题及答案整理,最新面试题
大数据·hadoop·分布式
皓空揽月3 天前
Ubuntu 单机安装 Hadoop 3.2.4教程
linux·hadoop·ubuntu
写代码的【黑咖啡】4 天前
HDFS简介及其存储机制详解
大数据·hadoop·hdfs
俊哥大数据4 天前
【项目实战1】大数据项目开发案例---新闻资讯离线分析|实时分析|大数据仓库|推荐系统|数据可视化项目
数据仓库·hadoop·flink·spark·推荐系统·实时分析·离线分析
忘记9264 天前
Servlet 生命周期
数据仓库·hive·hadoop