Hive字符串数组json类型取某字段再列转行

一、原始数据

|---------|------------------------------------------------------------------------------------------------------------------------------------------|
| acct | content |
| 1232313 | [{"name":"张三","code":"上海浦东新区89492jfkdaj\r\n福建的卡"...},{"name":"狂徒","code":"select * from table where aa=1\r\n and a=12"...},{...}] |
| ... | ... |

二、需求

上述数据表名code_content,把json中code内容全都取出来拼接成一行数据,最终效果:

|---------|----------------------------------------------------------------------------------|
| acct | new_content |
| 1232313 | 上海浦东新区89492jfkdaj\r\n福建的卡\u0001select * from table where aa=1\r\n and a=12 |
| ... | ... |

三、解析思路

四、实现方法

1.sql

sql 复制代码
select acct,concat_ws('\u0001',collect_list(t.code)) code
from 
(
select acct,get_json_object(a_json,'$.code') code
from
(
select acct,
split(regexp_replace(regexp_extract(code,'(^\\[)(.*?)(\\]$)',2),'\\},\\{','\\}|\\{'),'\\|') as t_code
from code_content
where dt=20230823
) a
lateral view explode(t_code) code_content_tab as a_json
) t
group by acct

2.sql解释:

  • regexp_extract(code,'(^\\[)(.*?)(\\]$)',2):用正则取出数组里的json
  • regexp_replace:替换},{为}|{,方便切割因为,号一般语句里会比较多
  • split:切割成数组
  • explode:函数中的参数传入的是arrary数据类型的列名,通常,explode函数会与lateral view一起结合使用
  • lateral view:Lateral View配合 split, explode 等UDTF函数一起使用,它能够将一列数据拆成多行数据,并且对拆分后结果进行聚合,即将多行结果组合成一个支持别名的虚拟表。
  • get_json_object(a_json,'$.code'):获取json字段value
  • concat_ws('\u0001',collect_list(t.code)):"列转行"

参考:

Hive SQL中的 lateral view 与 explode(列转行)以及行转列_sql explode_卖山楂啦prss的博客-CSDN博客

hivesql解析json数组并拆分成多行_hive sql怎么对一个数组进行分行_Time Woods的博客-CSDN博客

相关推荐
计艺回忆路2 小时前
Hive自定义函数(UDF)开发和应用流程
hive·自定义函数·udf
万能小锦鲤16 小时前
《大数据技术原理与应用》实验报告三 熟悉HBase常用操作
java·hadoop·eclipse·hbase·shell·vmware·实验报告
天翼云开发者社区1 天前
数据治理的长效机制
大数据·数据仓库
王小王-1231 天前
基于Hadoop与LightFM的美妆推荐系统设计与实现
大数据·hive·hadoop·大数据美妆推荐系统·美妆商品用户行为·美妆电商
一切顺势而行1 天前
hadoop 集群问题处理
大数据·hadoop·分布式
万能小锦鲤2 天前
《大数据技术原理与应用》实验报告七 熟悉 Spark 初级编程实践
hive·hadoop·ubuntu·flink·spark·vmware·实验报告
项目題供诗2 天前
Hadoop(二)
大数据·hadoop·分布式
Leo.yuan2 天前
ETL还是ELT,大数据处理怎么选更靠谱?
大数据·数据库·数据仓库·信息可视化·etl
万能小锦鲤2 天前
《大数据技术原理与应用》实验报告五 熟悉 Hive 的基本操作
hive·hadoop·ubuntu·eclipse·vmware·实验报告·hiveql
張萠飛2 天前
flink sql如何对hive string类型的时间戳进行排序
hive·sql·flink