Hive中的CONCAT、CONCAT_WS与COLLECT_SET函数

1.CONCAT与CONCAT_WS函数

1.1 CONCAT函数

sql 复制代码
-- concat(str1, str2, ... strN) - returns the concatenation of str1, str2, ... strN or concat(bin1, bin2, ... binN) - returns the concatenation of bytes in binary data  bin1, bin2, ... binN
Returns NULL if any argument is NULL.
Example:
  > SELECT concat('abc', 'def') FROM src LIMIT 1;
  'abcdef'
Function class:org.apache.hadoop.hive.ql.udf.generic.GenericUDFConcat
Function type:BUILTIN

CONCAT(string A/col, string B/col...): 返回输入字符串连接后的结果,支持任意个输入字符串;

1.2 CONCAT_WS函数

sql 复制代码
-- concat_ws(separator, [string | array(string)]+) - returns the concatenation of the strings separated by the separator.
Example:
  > SELECT concat_ws('.', 'www', array('facebook', 'com')) FROM src LIMIT 1;
  'www.facebook.com'
Function class:org.apache.hadoop.hive.ql.udf.generic.GenericUDFConcatWS
Function type:BUILTIN

CONCAT_WS(separator, str1, str2,...): 特殊形式的 CONCAT()。第一个参数为剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL,返回值也将为 NULL。函数会跳过分隔符参数后的任何 NULL 和空字符串。注意: CONCAT_WS must be "string or array<string>

2.COLLECT_SET函数

2.1 函数语法

sql 复制代码
-- collect_set(x) - Returns a set of objects with duplicate elements eliminated
Function class:org.apache.hadoop.hive.ql.udf.generic.GenericUDAFCollectSet
Function type:BUILTIN

COLLECT_SET(col): 该函数只接受基本数据类型,它的主要作用是将某字段的值进行去重汇总,产生array类型字段。

3.使用案例

3.1 准备数据

name constellation blood_type
小明 白羊座 A
小红 射手座 A
小刚 白羊座 B
小丽 白羊座 A
小虎 射手座 A
小威 白羊座 B

需求:把星座和血型一样的人归类到一起。结果如下:

射手座,A 小红|小虎

白羊座,A 小明|小丽

白羊座,B 小刚|小威

3.2 代码实现

sql 复制代码
SELECT  t1.c_b
       ,CONCAT_WS("|" , collect_set(t1.name))
FROM    (
            SELECT  NAME
                   ,CONCAT_WS(',' , constellation , blood_type) c_b
            FROM    person_info
        ) t1
GROUP BY t1.c_b

4.总结

  • concat 用于连接字符串。
  • concat_ws 用于按照指定的分隔符连接字符串。
  • collect_setgroup byconcat_ws 一起使用可以实现"列转行"。
相关推荐
心止水j43 分钟前
hbase 电商1
hive
菜鸟冲锋号2 小时前
适配AI大模型非结构化数据需求:数据仓库的核心改造方向
大数据·数据仓库·人工智能·大模型
小鸡脚来咯2 小时前
Hive分桶表:大数据开发的性能优化利器
大数据·hive·性能优化
木卫二号Coding3 小时前
hivesql 字段aa值 如何去掉前面的0
hive
老徐电商数据笔记20 小时前
数据仓库工程师在AI时代的走向探究
数据仓库·人工智能
老徐电商数据笔记1 天前
电商数仓存储格式(Textfile/Orc/Parquet)深度解析:五大实战方案与选型指南
大数据·数据仓库·技术面试·数据存储格式
yumgpkpm1 天前
Cloudera CDP 7.3(国产CMP 鲲鹏版)平台与银行五大平台的技术对接方案
大数据·人工智能·hive·zookeeper·flink·kafka·cloudera
AI_56781 天前
从“单文件存储”到“PB级集群”——HDFS如何让大数据“躺平”存储
大数据·hadoop·hdfs
潘达斯奈基~1 天前
数仓建模1-核心框架
大数据·数据仓库
默 语3 天前
Spring Boot 3.x升级踩坑记:到底值不值得升级?
hive·spring boot·后端