技术栈
大数据校招
涤生大数据
2 小时前
大数据
·
sql
·
spark
·
分桶表
·
大数据校招
·
大数据八股
Spark分桶表实战:如何用分桶减少 40%+ 计算时间
今年校招面试spark的分桶表这块问的比较多一些,今天借此给小伙伴搞个案例讲讲哈!分桶本质上是对文件的划分,其执行逻辑是对分桶key的hash值对桶个数取模,在大表join场景的主要优化逻辑在于通过预先设置分桶+排序,其执行效率得以提高有两个重要原因:避免走Shuffle以及不用在内存中保存Hash数据结构。
我是有底线的