Hive 常见问题 - 技术栈

Hive 内部表和外部表的区别

order by ：全局排序，只有一个 reduce ，数据量很大时会比较慢；
sort by ：局部排序，只保证每个 reduce 中的数据有序，不能保证全局有序；
distribute by ：控制 map 结果分发，相同值会被分发到同一个 map ；
cluster by ：根据指定字段将数据分组，每组内再根据该字段正序排序（只能正序），cluster by = distribute by + sort by；

在 Map 阶段将 on 的字段设为 key ，然后将选择的字段作为 value 在 Reduce 阶段，相同 key 值的数据分发到同一个 Reducer；

group by

维度过少，某些值比较大，分发到不同 Reduce 操作，造成某个 Reduce 数据倾斜；

join

某些 key 值比较多，或者 key 值存在大量 null ，join 后分发到某个 Reduce 的数据量过大；

分组中有部分数据比较多，造成数据倾斜。这种情况可以通过调参解决：

bash 复制代码

set hive.map.aggr=true；
set hive.groupby.skewindata=true;

hive.map.aggr=true 表示开启 map 端聚合；
hive.groupby.skewindata=true 表示有数据倾斜时进行负载均衡，这会使得生成两个 MR job，第一个 job 会将数据随机分发到不同的 Reduce 进行聚合，可以达到负载均衡的效果；结果传入第二个 MR job ，根据预处理的数据结果按照 group by key 进行分发处理，包获赠相同的 key 分到同一个 Reduce 中，完成聚合；

有大量 null 值 join 的情况

大小表 join 的情况

sql 复制代码

 select /*+MAPJOIN(b)*/ a.a1,a.a2,b.b2 from tablea a JOIN tableb b ON a.a1=b.b1  --其中b 为小表

key 值倾斜的情况

可以将倾斜的 key 过滤出来单独 join ，则会分散到多个 task 进行 join' 操作，最后再进行 union 即可；