大数据校招 - 大数据校招技术,学习,经验文章

涤生大数据

8 个月前

Spark分桶表实战：如何用分桶减少 40%+ 计算时间今年校招面试spark的分桶表这块问的比较多一些，今天借此给小伙伴搞个案例讲讲哈！分桶本质上是对文件的划分，其执行逻辑是对分桶key的hash值对桶个数取模，在大表join场景的主要优化逻辑在于通过预先设置分桶+排序，其执行效率得以提高有两个重要原因：避免走Shuffle以及不用在内存中保存Hash数据结构。