clickhouse 使用global in 优化 in查询

wending-Y2024-11-28 7:09

文章目录

- - in例子
  - [使用global in](#使用global in)

in例子

bash 复制代码

SELECT uniq(UserID) FROM distributed_table
WHERE CounterID = 101500 
AND UserID IN (SELECT UserID FROM distributed_table WHERE CounterID = 34)

对于in 查询来说，本来查询的就是分布式表，假设这个表有100 个分片，in 查询就要查询100次，再加上外面也是查的分布式表，那就是100*100 次

bash 复制代码

SELECT UserID FROM distributed_table WHERE CounterID = 34

使用global in

bash 复制代码

SELECT uniq(UserID) FROM distributed_table
WHERE CounterID = 101500 
AND UserID  global IN (SELECT UserID FROM distributed_table WHERE CounterID = 34)

global in 实现

ClickHouse 会从右表的所有分片中读取完整数据，然后收集到的右表数据会被广播到查询涉及的每个分片上。

相当于右表里的只查询一次，大大减少处理时间