Hive实现查询左表有右表没有的记录

工作中遇到这样一个场景,业务逻辑是:如果一个主体发生了某一问题,就不再统计该主体的其他问题。

思路:首先想到的方法就是not in方法,但是Hive并不不支持。那么使用left join对两个表进行连接,右表主键为空的说明是右表不存在坐标存在。

方法一:left join方法

left join返回左表所有的记录和右表on条件可以匹配到的数据,右表匹配不到的字段值为空值。并支持查询左表和右表的相关字段。

sql 复制代码
select
	t1.id,
	t1.field_one,
	t1.field_two,
	t2.field_three,
	t2.field_four
from 
	dbname.tableName1 t1
left join
	dbname.tableName2 t2
on t1.id = t2.id
where t2.id is null
方法二:left anti join方法

left anti join方法返回左表有而右表没有的数据,这种方法避免在join之后使用where条件删除不符合的数据,查询速度相对快点,但是注意left anti join不支持查询右表字段,所以只能select左表字段。

sql 复制代码
select
	t1.id,
	t1.field_one,
	t1.field_two,
from 
	dbname.tableName1 t1
left anti join
	dbname.tableName2 t2
on t1.id = t2.id

返回左表和右表同时存在的记录

考虑到可能会有另一种场景:要求查询左表和右表同时存在的记录,可以进行一下变换套用。

方法一:left join
sql 复制代码
select
	t1.id,
	t1.field_one,
	t1.field_two,
	t2.field_three,
	t2.field_four
from 
	dbname.tableName1 t1
left join
	dbname.tableName2 t2
on t1.id = t2.id
where t2.id is not null
方法二:left semi join

left semi join方法返回左表和右表同时存在的数据,但是不支持查询右表字段,另外如果左表有id重复的记录可能会返回第一条记录(返回记录数会和左表记录数不一致),有时不满足业务需求

sql 复制代码
select
	t1.id,
	t1.field_one,
	t1.field_two,
from 
	dbname.tableName1 t1
left semi join
	dbname.tableName2 t2
on t1.id = t2.id
相关推荐
神奇侠202411 小时前
Hive SQL常见操作
hive·hadoop·sql
SelectDB技术团队14 小时前
从 ClickHouse、Druid、Kylin 到 Doris:网易云音乐 PB 级实时分析平台降本增效
大数据·数据仓库·clickhouse·kylin·实时分析
itachi-uchiha16 小时前
Docker部署Hive大数据组件
大数据·hive·docker
viperrrrrrrrrr717 小时前
大数据学习(131)-Hive数据分析函数总结
大数据·hive·学习
Leo.yuan20 小时前
API是什么意思?如何实现开放API?
大数据·运维·数据仓库·人工智能·信息可视化
qq_4084133921 小时前
spark 执行 hive sql数据丢失
hive·sql·spark
TDengine (老段)1 天前
TDengine 替换 Hadoop,彻底解决数据丢失问题 !
大数据·数据库·hadoop·物联网·时序数据库·tdengine·涛思数据
workflower1 天前
量子比特实现方式
数据仓库·服务发现·需求分析·量子计算·软件需求
yt948321 天前
如何在IDE中通过Spark操作Hive
ide·hive·spark
青春之我_XP1 天前
【基于阿里云搭建数据仓库(离线)】Data Studio创建资源与函数
大数据·数据仓库·sql·dataworks·maxcompute·data studio