技术栈

分桶表

涤生大数据
22 天前
大数据·sql·spark·分桶表·大数据校招·大数据八股
Spark分桶表实战:如何用分桶减少 40%+ 计算时间今年校招面试spark的分桶表这块问的比较多一些,今天借此给小伙伴搞个案例讲讲哈!分桶本质上是对文件的划分,其执行逻辑是对分桶key的hash值对桶个数取模,在大表join场景的主要优化逻辑在于通过预先设置分桶+排序,其执行效率得以提高有两个重要原因:避免走Shuffle以及不用在内存中保存Hash数据结构。
消失在人海中
1 年前
数据仓库·hive·hadoop·分区表·分桶表
Hive 分区和分桶的区别及示例讲解一、概述在大数据处理过程中,Hive是一种非常常用的数据仓库工具。Hive分区和分桶是优化Hive性能的两种方式,它们的区别如下: 1)分区概述
我是有底线的