hivesql连续日期统计最大逾期/未逾期案例

1、虚表(测试表和数据) create test_table as

select a.cust_no, a.r_date, a.yqts from (

select '123' as cust_no, '20231101' as r_date, 0 as yqts

union all

select '123' as cust_no, '20231102' as r_date, 1 as yqts

union all

select '123' as cust_no, '20231103' as r_date, 2 as yqts

union all

select '123' as cust_no, '20231104' as r_date, 3 as yqts

union all

select '123' as cust_no, '20231105' as r_date, 0 as yqts

union all

select '123' as cust_no, '20231106' as r_date, 0 as yqts

union all

select '123' as cust_no, '20231107' as r_date, 1 as yqts

) a

2、加入有表test_table,数据如上,0标识未逾期,1标识逾期,求连续最大无逾期和逾期的天数,以上数据可直接看出最大连续逾期天数为3、未逾期未2。

3、首先将测试数据排序,让数据连续

select a.cust_no, a.r_date, a.yqts from test_table a where 1=1 order by a.cust_no, a.r_date asc

4、将数据分组并给是否逾期打上标识1逾期,2未逾期,多行转一行

select tx.cust_no, count(distinct tx.r_date) as sum_ctn, concat_ws('',collection_list(case when cast(tx.yqts as double) > 0 then '1' else '2' end)) as sfflag from (

select a.cust_no, a.r_date, a.yqts from test_table a where 1=1 order by a.cust_no, a.r_date asc

) tx

执行结果:

cust_no sum_ctn sfflag

123 7 2111221

5、使用正则表达式分别替换,2111221改字符串中包含逾期和未逾期,将逾期1*都用A替换掉(同时也是分割符),剩下就是未逾期的,逾期的同理

select ty.cust_no, ty.sum_ctn, regexp_replace(ty.sfflag, '\2+', 'A') as yqflag, regexp_replace(ty.sfflag, '\1+', 'A') as wyqflag from (

'123' as cust_no 7 as sum_ctn '2111221' as sfflag

) ty

执行结果:

cust_no sum_ctn yqflag wyqflag

123 7 A111A1 2A22A

6、使用炸裂函数explode结合lateral view将数据拆分未多行,使用一次lateral view会生成一次虚表

select tz.cust_no, max(sum_ctn) as sum_ctn, max(length(yqlength)) as yqlength, max(length(wyqlength)) as wyqlength from (

123 as cust_no 7 as sum_ctn A111A1 as yqflag 2A22A as wyqflag

) tz

lateral view explode(split(yqflag,'A')) tb1 as yqlength

lateral view explode(split(wyqflag,'A')) tb2 as wyqlength

group by tz.cust_no

相关推荐
武子康3 小时前
大数据-100 Spark DStream 转换操作全面总结:map、reduceByKey 到 transform 的实战案例
大数据·后端·spark
武子康1 天前
大数据-99 Spark Streaming 数据源全面总结:原理、应用 文件流、Socket、RDD队列流
大数据·后端·spark
计算机毕业设计木哥2 天前
计算机毕设选题推荐:基于Java+SpringBoot物品租赁管理系统【源码+文档+调试】
java·vue.js·spring boot·mysql·spark·毕业设计·课程设计
鸿乃江边鸟2 天前
向量化和列式存储
大数据·sql·向量化
IT毕设梦工厂2 天前
大数据毕业设计选题推荐-基于大数据的客户购物订单数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·数据分析·spark·毕业设计·源码·bigdata
大数据CLUB3 天前
基于spark的澳洲光伏发电站选址预测
大数据·hadoop·分布式·数据分析·spark·数据开发
计算机编程小央姐3 天前
跟上大数据时代步伐:食物营养数据可视化分析系统技术前沿解析
大数据·hadoop·信息可视化·spark·django·课程设计·食物
懒虫虫~3 天前
通过内存去重替换SQL中distinct,优化SQL查询效率
java·sql·慢sql治理
孟意昶3 天前
Spark专题-第一部分:Spark 核心概述(2)-Spark 应用核心组件剖析
大数据·spark·big data