Hive面试问题

小浩码字贼快2024-06-08 19:37

1.hive如何自定义函数

2.hive优化

3.hive数据倾斜

1.数据倾斜的表现

数据倾斜是由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点的现象。主要表现：任务进度长时间维持在 99%或者 100%的附近，查看任务监控页面Yarn(8088)，发现只有少量 reduce 子任务未完成，因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数相差太大，通常达到好几倍之多，最长时间远大于平均时长。

2.出现的原因

1）数据类型不一致造成数据倾斜

2）数据中出现大量的null值

3）单表group by 出现数据倾斜

第一种方案：使用参数优化

第二种方案：增加Reduce数量

4）多表join出现数据倾斜

解决方案一：使用参数解决

解决方案二：大小表join

解决方案三：大表大表join