hive - explode 用法以及练习

hive explode 的用法以及练习

一行变多行 explode

例如: 临时表 temp_table ,列名为1st

1st
1,2,3
4,5,6

变为

1

2

3

4

5

6

方式一:直接使用 explode

bash 复制代码
select   
 explode(split(1st,',')) 
 from temp_table;

方式二:使用 lateral view explode() 临时别名 as 列名

bash 复制代码
select  
  type
 from  temp_table
 lateral view explode(split(1st,','))  tmp as type;

练习:

数据库表名default.classinfo ,对应列分别是班级,姓名,成绩

class student score
1班 A,B,C 88,90,77
2班 D,E 80,92
3班 F,G,H 95,75,66

练习1:将姓名分开变为一行一个名字

bash 复制代码
select 
	class ,student_name
from
	default.classinfo
    lateral view explode(split(student,',')) t as student_name;

练习2:给每个同学一个编号,按姓名顺序,从1开始

使用 posexplode 函数

bash 复制代码
select 
	class,student_index +1 as stu_index,student_name
from
	default.classinfo
	lateral view posexplode(split(student,',')) t as student_index,student_name;

这里+1 是因为编号是从0开始的

练习3:使学生姓名与成绩进行匹配

注意:这里是对两列进行explode,会两两进行匹配,以1班为例,就是 3* 3=9 ,这显然是不对的,此时,就需要用到posexplode

,然后通过where 保留序号相同的行

bash 复制代码
select 
	class,stu_name,stu_score
from 
	defalult.classinfo
	lateral view posexplode(split(student,',')) sn as stu_n_index,stu_name
	lateral view posexplode(split(score,',')) ss as stu_s_index,stu_score
where
	stu_n_index - stu_s_index

练习4:对每个班的成绩进行排名

注意:

row_number(): 排序的字段值相同时序列号不会重复,如:1、2、(2)3、4、5(出现两个2,第二个2继续编号3)

rank() : 排序的字段值相同时序列号会重复且下一个序列号跳过重复位,如:1、2、2、4、5(出现两个2,跳过序号3,继续编号4)

dense_rank(): 排序的字段值相同时序列号会重复且下一个序列号继续序号自增,如:1、2、2、3、4(出现两个2,继续按照3编号)

这里我们使用rank()

bash 复制代码
select 
	class,
	stu_name,
	stu_score,
	rank() over(partition by class order by stu_score desc ) as stu_rank

from 
	default.classinfo
	lateral view posexplode(split(student,','))  sn as stu_n_index,stu_name
	lateral view posexplode(split(score,',')) ss as stu_s_index ,stu_score
where
	stu_n_index = stu_s_index
相关推荐
云器科技14 小时前
无需CDP:基于现有数据仓库构建高效用户画像系统
数据仓库·湖仓一体·lakehouse·无需 cdp
xerthwis19 小时前
HDFS:那座正在云化与解构的“古老高墙”
大数据·数据仓库·人工智能·hdfs·数据库开发·数据库架构
xerthwis2 天前
Hadoop:大数据世界的“古老基石”与“沉默的共生者”
大数据·人工智能·hadoop
yumgpkpm2 天前
Cloudera CDH5|CDH6|CDP7.1.7|CDP7.3|CMP 7.3的产品优势分析(在华为鲲鹏 ARM 麒麟KylinOS、统信UOS)
大数据·人工智能·hadoop·深度学习·spark·transformer·cloudera
ghgxm5202 天前
EXCEL使用VBA代码实现按条件查询数据库--简单实用
开发语言·数据仓库·笔记·excel·数据库开发
yumgpkpm2 天前
Hadoop如何用Flink支持实时数据分析需求
大数据·hadoop·分布式·hdfs·flink·kafka·cloudera
喻师傅3 天前
Hive 中 NULL 值在逻辑判断中的“陷阱”(踩坑复盘)
数据仓库·hive·hadoop
涤生大数据3 天前
放弃Canal后,我们用Flink CDC实现了99.99%的数据一致性
大数据·数据仓库·flink·大数据开发·flink cdc·数据开发·实时数据
jinxinyuuuus3 天前
订阅指挥中心:数据可移植性、Schema设计与用户数据主权
数据仓库·人工智能
老徐电商数据笔记4 天前
技术复盘第四篇:Kimball维度建模在电商场景的实战应用
大数据·数据仓库·技术面试