ETL_场景练习

1 行列转换

(1) 列拆分为多行

把指定字段按指定分隔符进行拆分为多行,然后其它字段直接复制.

sql 复制代码
select
     字段列
    ,hobby2
from tbl
-- lateral view udtf(expression) tablealias as columnalias (',' columnalias)
lateral view explode(split(hobby,';')) temp as hobby2

(2) 行扁平化

把同一组的多行数据合并成为一行.

sql 复制代码
select 
  id, 
  name, 
  age, 
  split(concat_ws(':',collect_list(hobby)),':')[0] as hobby1,
  split(concat_ws(':',collect_list(hobby)),':')[1] as hobby2,
  split(concat_ws(':',collect_list(hobby)),':')[2] as hobby3
from tbl
group by id, name, age;

(3) 列转行

如果数据一列有相同的值,按照指定的字段,将其中一列的字段内容变成不同的列,然后把多行数据转换为一行数据.

sql 复制代码
select
    name
   ,max(if(wek = '周一',work_hour,0)) as mon
   ,max(if(wek = '周二',work_hour,0)) as tue
   ,max(if(wek = '周三',work_hour,0)) as wed
   ,max(if(wek = '周四',work_hour,0)) as thu
   ,max(if(wek = '周五',work_hour,0)) as fi
   ,max(if(wek = '周六',work_hour,0)) as sat
   ,max(if(wek = '周日',work_hour,0)) as sun
from tbl
group by name

(4) 行转列

把数据字段的字段名转换为一列,把数据行变为数据列.

复制代码
select name, 'mon' as wek, mon as work_hour from tbl
union all
select name, 'tue' as wek, tue as work_hour from tbl
union all
select name, 'wed' as wek, wed as work_hour from tbl
union all
select name, 'thu' as wek, thu as work_hour from tbl
union all
select name, 'fri' as wek, fri as work_hour from tbl
union all
select name, 'sat' as wek, sat as work_hour from tbl
union all
select name, 'sun' as wek, sun as work_hour from tbl
相关推荐
xiaogai_gai27 分钟前
金蝶云星空API接口的ETL转换与数据写入方案
数据仓库·etl
菜鸟小码2 小时前
Hive数据类型全解析:从基础到复杂类型实战指南
数据仓库·hive·hadoop
Gauss松鼠会2 小时前
【GaussDB】浅谈SQL与ETL
数据库·数据仓库·sql·etl·gaussdb·经验总结
隐于花海,等待花开2 小时前
1.CONCAT / CONCAT_WS 函数深度解析
大数据·hive
juniperhan3 小时前
Flink 系列第13篇:Flink 生产环境中的并行度与资源配置
java·大数据·数据仓库·分布式·flink
菜鸟小码3 小时前
深入浅出 Hive 数据类型:从入门到实战
数据仓库·hive·hadoop
YMatrix 官方技术社区14 小时前
美国·硅谷|YMatrix 即将亮相 Postgres Conference 2026,前瞻 AI 时代的数据基座
数据库·数据仓库·postgresql·时序数据库·ymatrix
孟意昶17 小时前
Doris专题31-SQL手册-基础元素
大数据·数据库·数据仓库·分布式·sql·知识图谱·doris
juniperhan21 小时前
Flink 系列第12篇:Flink 维表关联详解
大数据·数据仓库·分布式·flink
Leo.yuan1 天前
告别DataX和Kettle:FineDataLink如何实现数据同步+ETL+治理一体化?
数据仓库·etl