技术栈

大数据校招

涤生大数据
2 小时前
大数据·sql·spark·分桶表·大数据校招·大数据八股
Spark分桶表实战:如何用分桶减少 40%+ 计算时间今年校招面试spark的分桶表这块问的比较多一些,今天借此给小伙伴搞个案例讲讲哈!分桶本质上是对文件的划分,其执行逻辑是对分桶key的hash值对桶个数取模,在大表join场景的主要优化逻辑在于通过预先设置分桶+排序,其执行效率得以提高有两个重要原因:避免走Shuffle以及不用在内存中保存Hash数据结构。
我是有底线的