Hive与Presto中的列转行区别

Hive与Presto列转行的区别

1、背景描述

在处理数据时,我们经常会遇到一个字段存储多个值,这时需要把一行数据转换为多行数据,形成标准的结构化数据

例如,将下面的两列数据并列转换为三行,使得codename一一对应

id code name
1 a、b、c A、B、C

Hive、Spark和Presto都提供了这种实现,但有所不同。下面通过这个案例介绍三者之间的区别及注意事项

2、Hive/Spark列转行

Hive和Spark都可以使用lateral view posexplode实现:

sql 复制代码
select id, pos1, sub_code, pos2, sub_name from tmp
lateral view posexplode(split(code,'、')) v1 as pos1, sub_code
lateral view posexplode(split(name,'、')) v2 as pos2, sub_name
where id='1' and pos1=pos2

Hive On MapReduce与Hive On Spark的执行结果如下:

id sub_code sub_name
1 a A
1 b B
1 c C

值得注意的是,lateral view posexplode会自动过滤被转换列字段值为空的数据,进而导致数据丢失

优化方案是将lateral view修改为lateral view outer后尝试

更多关于lateral view UDTF的使用见文章:传送门

3、Presto列转行

使用PrestoSQL的交叉连接cross join unnest实现:

sql 复制代码
with t1 as(
    select id,sub_code,row_number() over() rn
    from temp
    cross join unnest(split(code, '、')) as t (sub_code)
    where id='1'
),
t2 as (
    select id,sub_name,row_number() over() rn
    from temp
    cross join unnest(split(name, '、')) as t (sub_name)
    where id='1'
)
select t1.id, t1.sub_code, t2.sub_name
from t1
left join t2 
on t1.rn = t2.rn
order by t1.rn

PrestoSQL的执行结果如下:

id sub_code sub_name
1 b B
1 a A
1 c C

需要注意的是,cross join unnest不会自动过滤被转换列和转换列字段值为空的数据,因此此方式数据不会丢失

例如,当转换列字段值存在空值时:

id code name
1 a、b、c A、B

cross join unnest列转行的结果为

id sub_code sub_name
1 a A
1 c NULL
1 b B

当被转换列字段值存在空值时:

id code name
1 a、b、c NULL

cross join unnest列转行的结果为

id sub_code sub_name
1 b NULL
1 a NULL
1 c NULL
相关推荐
王小王-1231 天前
基于 Hive 的网易云音乐数据分析及可视化系统
hive·hadoop·数据分析·音乐数据分析·网易云音乐分析·hive音乐分析·hadoop网易云
TPBoreas3 天前
springboot3.5比2.x做了哪儿些提升
数据仓库·hive·hadoop
Nefu_lyh4 天前
【Hive】七、Hive 函数:聚合 / 统计 / 分位数 / 集合 / 高级分组
数据仓库·hive·hadoop
KANGBboy5 天前
hive UDF函数
数据仓库·hive·hadoop
王小王-1236 天前
基于商品评价的评论情感分析与可视化系统
hive·情感分析·商品评价分析·主题分析·商品评论分析
Nefu_lyh7 天前
【Hive】 八、Hive 计算引擎:MapReduce / Tez / Spark 对比与选型
hive·spark·mapreduce
白日与明月8 天前
Hive子查询中的ORDER BY陷阱:为什么排序“消失”了?
数据仓库·hive·hadoop
Nefu_lyh9 天前
【Hive】六、Hive 运算逻辑:数学 / 逻辑 / 条件 / 日期 / 字符串函数
数据仓库·hive·hadoop
AQin101210 天前
【对比向】既生瑜何生亮?不!Hive 和 Doris不一样
数据仓库·hive·hadoop·doris
AQin101210 天前
【对比向】细算“成本”——Hive vs. Doris
大数据·数据库·hive·doris·实时数仓