Hive实现查询左表有右表没有的记录

工作中遇到这样一个场景,业务逻辑是:如果一个主体发生了某一问题,就不再统计该主体的其他问题。

思路:首先想到的方法就是not in方法,但是Hive并不不支持。那么使用left join对两个表进行连接,右表主键为空的说明是右表不存在坐标存在。

方法一:left join方法

left join返回左表所有的记录和右表on条件可以匹配到的数据,右表匹配不到的字段值为空值。并支持查询左表和右表的相关字段。

sql 复制代码
select
	t1.id,
	t1.field_one,
	t1.field_two,
	t2.field_three,
	t2.field_four
from 
	dbname.tableName1 t1
left join
	dbname.tableName2 t2
on t1.id = t2.id
where t2.id is null
方法二:left anti join方法

left anti join方法返回左表有而右表没有的数据,这种方法避免在join之后使用where条件删除不符合的数据,查询速度相对快点,但是注意left anti join不支持查询右表字段,所以只能select左表字段。

sql 复制代码
select
	t1.id,
	t1.field_one,
	t1.field_two,
from 
	dbname.tableName1 t1
left anti join
	dbname.tableName2 t2
on t1.id = t2.id

返回左表和右表同时存在的记录

考虑到可能会有另一种场景:要求查询左表和右表同时存在的记录,可以进行一下变换套用。

方法一:left join
sql 复制代码
select
	t1.id,
	t1.field_one,
	t1.field_two,
	t2.field_three,
	t2.field_four
from 
	dbname.tableName1 t1
left join
	dbname.tableName2 t2
on t1.id = t2.id
where t2.id is not null
方法二:left semi join

left semi join方法返回左表和右表同时存在的数据,但是不支持查询右表字段,另外如果左表有id重复的记录可能会返回第一条记录(返回记录数会和左表记录数不一致),有时不满足业务需求

sql 复制代码
select
	t1.id,
	t1.field_one,
	t1.field_two,
from 
	dbname.tableName1 t1
left semi join
	dbname.tableName2 t2
on t1.id = t2.id
相关推荐
zgl_2005377911 小时前
源代码:跨数据库通用SQL语法解析与标注拆解
大数据·数据库·数据仓库·sql·etl·源代码管理
暴躁小师兄数据学院12 小时前
【AI大数据工程师特训笔记】第13讲:数据库性能手术刀
大数据·数据库·数据仓库·sql·postgresql
段一凡-华北理工大学19 小时前
工业领域的Hadoop架构学习~系列文章04:YARN资源调度架构
人工智能·hadoop·学习·架构·系统架构·高炉炼铁·高炉炼铁智能化
卷毛迷你猪19 小时前
快速实验篇(A2-2)数据清洗规则修正与多语言实现验证
hadoop·分布式
段一凡-华北理工大学20 小时前
工业领域的Hadoop架构学习~系列文章05:Kafka消息队列 - 工业数据流传输
人工智能·hadoop·学习·架构·kafka·工业智能体·高炉炼铁智能化
qiuyepiaoling2 天前
数仓设计基础
数据仓库
兔子宇航员03012 天前
HIVE SQL 中 NULL 值在 JOIN 和 GROUP BY 中的致命陷阱与解决方案
hive·hadoop·sql
段一凡-华北理工大学2 天前
工业领域的Hadoop架构学习~系列文章02:HDFS架构深度剖析
大数据·人工智能·hadoop·学习·架构·高炉炼铁
Irene19912 天前
Oracle(字符集分为服务端和客户端) 和 Hive(依赖 MySQL(或 PostgreSQL)存储元数据)字符集编码格式查询,中文乱码处理
hive·sql·oracle
段一凡-华北理工大学2 天前
工业领域的Hadoop架构学习~系列文章03:MapReduce编程模型深度解读
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉智能化