hive SQL谓词下推

Logan_addoil2024-04-24 22:42

Sql 优化：谓词下推（PPD

定义

谓词下推的概念其实出现在sql中，在关联查询时(join，left join ,right join),因为涉及两个大表之间的关联(特别是在hive)造成资源消耗会比较大，

因为建议在join之前先将两个表进行过滤(hive 里指的是在map端进行过滤)，系统会进行部分优化，但sql需要遵守PPD规则，

所谓下推可以理解成优化（只有满足才能进行优化）。

一句话说完：不影响结果的情况下，尽量将过滤条件提前执行。（记得小表join大表）

2 PPD规则（谓词下推规则）

2.1 名词解释

Preserved Row table：保留行表

外部联接中必须返回所有行的表。

对于left join，这是左表；

对于right join，这是右表；

对于full join，两个表都是保留的行表。

Null Supplying table：空值填充表

这是在不匹配的行中为其列填充空值的表。

对于left join，这是右表；

对于right join，这是左表；

对于full join，两个表都是空值填充表。

During Join predicate：连接谓词

join语句中的on部分

After Join predicate：后置连接词

join语句后的where

2.2 规则介绍

1、连接谓词（on）不能下推保留行表。

2、后置连接词（where）不能下推到空值填充表

2.3 针对该规则的建议
1、对于 Join (Inner Join)、Full outer Join，条件写在 on 后面，还是 where 后面，性能上面没有区别；
2、对于 Left Join ，右表过滤条件写在 on 后面、左表过滤条件写在 where 后面，性能上有提高；
3、对于 Right Join，左表过滤条件写在 on 后面、左表过滤条件写在 where 后面，性能上有提高；
4、存在unix_timestamp()、rand()不确定函数时，无法实现下推