hive高频使用的拼接函数及“避坑”

hive高频使用的拼接函数及"避坑"

说到拼接函数应用场景和使用频次还是非常高,比如一个员工在公司充当多个角色,我们在底层存数的时候往往是多行,但是应用的时候我们通常会只需要一行,角色字段进行拼接,这样join其他表的时候呢也不会造成数据被重复引用计算。

1、拼接多个字符串concat_null(...)

从上图中的说明中我们可以看到,在应用场景中,通常使用concat_null(...)防止由于有null存在导致的拼接异常。

2. 用分隔符拼接多个字符串concat_ws(...)

需要注意的是concat_ws(...)可以直接处理掉null,而且如果将sep分割符使用''(空值),则功能和concat_null(...)一样。

3、collect_set、collect_list实现列转行

由于collect_set在实现列转行的时候进行了去重处理,自然实际应用中应用的也会更多。

4、"避坑" null和非字符串字段

由于在实际生产环境中,我们所使用的引擎有所不同,兼容性也不同。有时候NULL和非字符串字段在查询时也会出现问题。

1、通常我们可以把null进行替换。if(字段名 is null,'',字段名)

2、非字符串转化为字符串 cast(字段名 as string)

sql 复制代码
`SELECT  id,     concat_ws(',',collect_set(         cast(if(角色 is null,'',角色) as string)         )) AS `角色`    
      -- 将每个id对应多个的角色去重组合放到一行,并使用英文','分隔角色   
FROM emp   WHERE dt = '20230618'   GROUP BY 1   `
相关推荐
心疼你的一切9 小时前
昇腾CANN实战落地:从智慧城市到AIGC,解锁五大行业AI应用的算力密码
数据仓库·人工智能·深度学习·aigc·智慧城市·cann
WHD30613 小时前
苏州数据库(SQL Oracle)文件损坏修复
hadoop·sql·sqlite·flume·memcached
ClouderaHadoop13 小时前
CDH集群机房搬迁方案
大数据·hadoop·cloudera·cdh
心疼你的一切14 小时前
基于CANN仓库打造轻量级AIGC:一键生成图片语义描述
数据仓库·aigc·cann
AC赳赳老秦19 小时前
代码生成超越 GPT-4:DeepSeek-V4 编程任务实战与 2026 开发者效率提升指南
数据库·数据仓库·人工智能·科技·rabbitmq·memcache·deepseek
心疼你的一切19 小时前
拆解 CANN 仓库:实现 AIGC 文本生成昇腾端部署
数据仓库·深度学习·aigc·cann
心疼你的一切20 小时前
模态交响:CANN驱动的跨模态AIGC统一架构
数据仓库·深度学习·架构·aigc·cann
心疼你的一切20 小时前
解锁CANN仓库核心能力:从零搭建AIGC轻量文本生成实战(附代码+流程图)
数据仓库·深度学习·aigc·流程图·cann
秃了也弱了。1 天前
StarRocks:高性能分析型数据仓库
数据仓库
心疼你的一切1 天前
数字智人:CANN加速的实时数字人生成与交互
数据仓库·深度学习·aigc·交互·cann