Hive多行转多列,多列转多行

hive中的行列转换包含单行、多行、单列、多列,所以一共有四种组和转换结果。

一、多行转多列

原始数据表

目标结果表

分析:目标表中的a和b是用分组形成,所以groupby字段选用原始表中col1,c、d、e是原始表中的行值,在目标表中成了列名,目标表中可以采用as做列名自定义,当原始表中的某一字段值等于某一特定值时,人为定义为结果表中的列名。

SQL实现

bash 复制代码
select
  col1 as col1,
  max(case col2 when 'c' then col3 else 0 end) as c,//当原始表中col2的字段为C时,取col3中的值,否则取0,然后取最大值,前提是原始表中没有比0更小的数,如果原始表中有比自定义的0值更小的数,else不能采用0,else的值要为原始表中最小数或比最小数还小。
  max(case col2 when 'd' then col3 else 0 end) as d,
  max(case col2 when 'e' then col3 else 0 end) as e
from
  row2col1
group by
  col1;


总结:多行转多列主要是条件函数,再取最大值,再用as自定义为新列名

二、单行转多列

原始数据表

目标数据表

**
分析:结果表是将原始表按照col1和col2进行分组统计,将原始表中具有相同col2的col3值拼接到目标表col3的字段当中,所以要采用hive中的拼接函数,但是拼接函数只使用于字符串,所以要将目标表中的col3的值转换为字符串,同时指定拼接关系逗号

SQL语句

bash 复制代码
select
  col1,
  col2,
  concat_ws(',', collect_list(cast(col3 as string))) as col3
from
  row2col2
group by
  col1, col2;

总结:多行转单列主要知识点就是字符串拼接函数

三、多列转多行

原始表

目标表

分析:union all 是在结果的行后面增加,简单理解为:连接行记录,类似向MySQL数据库中增加行记录
而left join是将两个表的列全部放入一张表的列中,增加列记录。

SQL实现

bash 复制代码
select col1, 'c' as col2, col2 as col3 from col2row1
UNION ALL
select col1, 'd' as col2, col3 as col3 from col2row1
UNION ALL
select col1, 'e' as col2, col4 as col3 from col2row1;

四、单列转多行

原始表

目标表

分析:一列中包含多个数据如Map或array,一般使用explode函数,俗称炸裂函数,将数据集合切分出来展示
SQL实现

bash 复制代码
select
  col1,
  col2,
  lv.col3 as col3
from
  col2row2
    lateral view
  explode(split(col3, ',')) lv as col3;

结果

相关推荐
SelectDB技术团队2 小时前
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
数据仓库·clickhouse·doris·快手·lakehouse
武子康2 小时前
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
大数据·hadoop·clickhouse·hdfs·架构·apache
lzhlizihang6 小时前
Hadoop集群的高可用(HA):NameNode和resourcemanager高可用的搭建
hadoop·zookeeper·高可用·ha
IT研究室7 小时前
大数据毕业设计选题推荐-国潮男装微博评论数据分析系统-Hive-Hadoop-Spark
大数据·hive·hadoop·python·spark·毕业设计·课程设计
消失在人海中7 小时前
大数据技术:Hadoop、Spark与Flink的框架演进
大数据·hadoop·spark
百流7 小时前
Pyspark DataFrame中Column使用
linux·hadoop·python·spark·pyspark
百流7 小时前
Pyspark中GroupedData类型内置函数
开发语言·hadoop·python·spark·pyspark
计算机编程-吉哥9 小时前
计算机毕业设计 基于Hadoop的智慧校园数据共享平台的设计与实现 Python 数据分析 可视化大屏 附源码 文档
大数据·hadoop·python·数据分析·毕业设计·毕业论文·计算机毕业设计选题
李永杰AAAA9 小时前
Hadoop搭建及Springboot集成
大数据·hadoop·spring boot
B站计算机毕业设计超人19 小时前
计算机毕业设计hadoop+hive航班预测系统 飞机票航班数据分析可视化大屏 机票预测 机票爬虫 飞机票推荐系统 大数据毕业设计
大数据·hive·hadoop·爬虫·机器学习·spark·数据可视化