Hive Lateral View explode列为空时导致数据异常丢失

一、问题描述

日常工作中我们经常会遇到一些非结构化数据,因此常常会将Lateral View 结合explode使用,达到将非结构化数据转化成结构化数据的目的,但是该方法对应explode的内容是有非null限制的,否则就有可能造成数据缺失。

sql 复制代码
SELECT name,info
FROM
  (
   SELECT name,
   	      split(info_list,',') as info_arrary
   FROM 
     (
      select '张三' as name,'1,2,3' as info_list
      union all
      select '李四' as name,null as info_list
     ) t1     -- 构造测试数据
   ) t2
LATERAL VIEW explode(t2.info_arrary) a as info ;

查询结果:

查看结果我们可以发现 '李四' 这条数据数据丢了,这就会造成我们最终统计的数据出现错误。

二、查找原因

通过定位我们可以发现 '李四' 这一行的info字段为null,其split之后的结果自然也是为null,通过LATERAL VIEW explode之后会形成一个为null的view,这样无法关联出数据,该数据就会丢失。

三、解决办法(建议使用方法二)

3.1 方法一

对子查询中的split结果强制使用coalesce()方法,将null替换成一个为['']的数组,直接这么写会误以为string字符串。我们可以使用split('','')构造出一个['']数组,改写后的语句如下

sql 复制代码
SELECT name,info
FROM
  (
   SELECT name,
          coalesce(split(info_list,','),split('','')) as info_arrary
   FROM 
     (
      select '张三' as name,'1,2,3' as info_list
      union all
      select '李四' as name,null as info_list
     ) t1     -- 构造测试数据
   ) t2
LATERAL VIEW OUTER explode(t2.info_arrary) a as info ;

请注意 '李四' 的结果为空字符,不是null。

3.2 方法二

使用官方提供的LATERAL VIEW OUTER来进行解决,该方法类似于left outer join,即如果explode出来的结果为null,也会保留记录,只不过对应字段为null,改写后的语句如下:

sql 复制代码
SELECT name,info
FROM
  (
   SELECT name,
          split(info_list,',') as info_arrary
   FROM 
     (
      select '张三' as name,'1,2,3' as info_list
      union all
      select '李四' as name,null as info_list
     ) t1     -- 构造测试数据
   ) t2
LATERAL VIEW OUTER explode(t2.info_arrary) a as info ;

查询结果:

请注意 '李四' 的结果为null,而不是空字符。

以下是官方文档关于该用法的解释:

The user can specify the optional OUTER keyword to generate rows even when a LATERAL VIEW usually would not generate a row. This happens when the UDTF used does not generate any rows which happens easily with explode when the column to explode is empty. In this case the source row would never appear in the results. OUTER can be used to prevent that and rows will be generated with NULL values in the columns coming from the UDTF.

为了保持代码的稳定性与数据的准确性,建议使用第二种方法。

相关推荐
Gain_chance10 小时前
34-学习笔记尚硅谷数仓搭建-DWS层最近一日汇总表建表语句汇总
数据仓库·hive·笔记·学习·datagrip
Gain_chance11 小时前
36-学习笔记尚硅谷数仓搭建-DWS层数据装载脚本
大数据·数据仓库·笔记·学习
Gain_chance12 小时前
35-学习笔记尚硅谷数仓搭建-DWS层最近n日汇总表及历史至今汇总表建表语句
数据库·数据仓库·hive·笔记·学习
无级程序员21 小时前
大数据Hive之拉链表增量取数合并设计(主表加历史表合并成拉链表)
大数据·hive·hadoop
华农DrLai1 天前
Spark SQL Catalyst 优化器详解
大数据·hive·sql·flink·spark
心疼你的一切1 天前
解密CANN仓库:AIGC的算力底座、关键应用与API实战解析
数据仓库·深度学习·aigc·cann
qq_12498707531 天前
基于Hadoop的信贷风险评估的数据可视化分析与预测系统的设计与实现(源码+论文+部署+安装)
大数据·人工智能·hadoop·分布式·信息可视化·毕业设计·计算机毕业设计
十月南城2 天前
Hive与离线数仓方法论——分层建模、分区与桶的取舍与查询代价
数据仓库·hive·hadoop
鹏说大数据2 天前
Spark 和 Hive 的关系与区别
大数据·hive·spark
B站计算机毕业设计超人2 天前
计算机毕业设计Hadoop+Spark+Hive招聘推荐系统 招聘大数据分析 大数据毕业设计(源码+文档+PPT+ 讲解)
大数据·hive·hadoop·python·spark·毕业设计·课程设计