今天又get到一个小技能,collect_set函数

collect_set函数

今天又get到一个小技能,掌握了hive一个关于列转行专用函数 collect_set函数。

在这里做个学习笔记。

collect_set是Hive内置的一个聚合函数, 结果返回一个消除了重复元素的对象集合, 其返回值类型是 array 。

和collect_set相似的还有另一个函数collect_list,这个我们后面再谈。

在实际应用中,我们可能会遇到需要类似这样的一个需求,就是需要查出各个品牌对应的所有分类,

品牌分类表数据结构大概是这样的:

brand_name,brand_classify

品牌1 家电

品牌1 家具

品牌1 数码

品牌2 空调

品牌2 饮水机

期望的结果是:

品牌1 家电,家具,数码

品牌2 空调,饮水机

这时候我们就可以使用collect_set函数来实现我们的需求。

sql 复制代码
select
brand_name,
concat_ws(',', collect_set(brand_classify)) as brand_classify
from tb_brand_classify
group by brand_name;

使用了collect_set函数,是不是感觉很容易就实现了需求。

下面我们来实践操作下,这样印象会更深刻些。

1.创建原始表 品牌分类表 tb_brand_classify

sql 复制代码
drop table if exists tb_brand_classify;create table if not exists tb_brand_classify (brand_name string, brand_classify string);

2.初始化数据

sql 复制代码
insert into table tb_brand_classify values('品牌1','家电');
insert into table tb_brand_classify values('品牌1','家具');
insert into table tb_brand_classify values('品牌1','数码');
insert into table tb_brand_classify values('品牌2','空调');
insert into table tb_brand_classify values('品牌2','饮水机');

3.查询表的数据

cs 复制代码
select * from tb_brand_classify

执行结果:

4.上述的需求我就可以使用 collect_set 函数来实现, 具体sql如下:

sql 复制代码
select
brand_name,
concat_ws(',', collect_set(brand_classify)) as brand_classify
from tb_brand_classify
group by brand_name;

执行结果:

拓展:

还可以用下标可以取具体某一个

sql 复制代码
select
brand_name,
collect_set(brand_classify)[0]
from tb_brand_classify
group by brand_name;

执行结果:

文章开头我们提到了collect_list函数,collect_list与collect_set最大的区别就是列的值不去重;我们把collect_set换成collect_list 执行看下。

sql 复制代码
select 
brand_name, 
concat_ws(',', collect_list(brand_classify)) 
from tb_brand_classify group by brand_name;

发现跟之前是一样的,那是因为我们的类目中没有重复,要是有重复,使用collect_list就会重复了。

需要注意的是collect_set是无序集合,如果需要排序我们可以改成collect_list或sort_array进行排序。

javascript 复制代码
concat_ws(',', sort_array(collect_set(brand_classify), false))

sort_array(e: column, asc: boolean)将array中元素排序(自然排序),默认asc。

好了,今天的分享就先到这。

由于水平有限,文中纰漏之处在所难免,欢迎大家批评指正。

相关推荐
pingao14137818 分钟前
智联未来:4G温湿度传感器如何重塑数据监测新生.态
大数据·网络·人工智能
数新网络2 小时前
告别“数据沼泽”,拥抱“活水湖”:数新智能基于CyberEngine与Apache Paimon的新一代数据湖仓架构
大数据
实习僧企业版3 小时前
如何为中小企业点亮校招吸引力的灯塔
大数据·春招·雇主品牌·招聘技巧·口碑
塔能物联运维3 小时前
高密度机柜满载怎么办?热管理的“最后一厘米”:两相液冷
大数据
王苏安说钢材A5 小时前
无锡佳钛合不锈钢有限公司三通的焊接工艺
大数据
跨境卫士-小汪6 小时前
旺季前成本项变多跨境卖家如何设定更稳的备货优先级
大数据·人工智能·产品运营·跨境电商·亚马逊
地球资源数据云6 小时前
1951-2025年中国逐年1千米逐月总降水量区域统计数据集_年表_县
大数据·数据结构·数据库·数据仓库·人工智能
云飞云共享云桌面6 小时前
精密机械制造工厂研发部门使用SolidWorks和ug,三维设计云桌面如何选择?
大数据·运维·服务器·网络·数据库·人工智能·制造
互联网推荐官6 小时前
定制开发落地实践:D-coding 销售采购系统赋能上海多终端软件项目建设
大数据
千里念行客2406 小时前
锚定AI赛道释放红利:安凯微2026年Q1业绩显成色
大数据·人工智能·科技·安全