SparkStructuredStreaming状态编程

spark官网关于spark有状态编程介绍比较少,本文是一篇个人理解关于spark状态编程。

官网关于状态编程代码例子:

spark/examples/src/main/scala/org/apache/spark/examples/sql/streaming/StructuredComplexSessionization.scala at v3.5.0 · apache/spark (github.com)

一般的流计算使用窗口函数可以解决大部分问题,但是一些比较复杂的业务,窗口函数无法解决,比如需要的数据范围大于你设定的时间窗口,那么就需要状态编程处理中间状态。

案例:

数据一秒一条被spark消费,我需要找到的绿色部分代表再生(再生开始PFltRgn_stRgnActv,PFltRgn_stRgnActvHld变为两个1,再生结束变为两个0),我需要知道PFltRgn_ctRgnSuc再生阶段变化是否大于等于2(true: 意味再生成功)

如果开一个5s滚动窗口(红色框框),窗口内无法解决这个需求,那么我就需要记录每个窗口中当符合再生条件(绿色)PFltRgn_ctRgnSuc的最小值和最大值(这个就是中间状态)

代码调试中:.....

相关推荐
lucky_syq13 小时前
Spark和MapReduce之间的区别?
大数据·spark·mapreduce
lucky_syq13 小时前
Hive SQL和Spark SQL的区别?
hive·sql·spark
lucky_syq15 小时前
Spark和Hadoop之间的区别
大数据·hadoop·spark
NiNg_1_2341 天前
Spark常用的转化操作和动作操作详解
大数据·ajax·spark
岑梓铭2 天前
(CentOs系统虚拟机)Standalone模式下安装部署“基于Python编写”的Spark框架
linux·python·spark·centos
Data跳动2 天前
Spark内存都消耗在哪里了?
大数据·分布式·spark
lucky_syq2 天前
流式处理,为什么Flink比Spark Streaming好?
大数据·flink·spark
goTsHgo2 天前
在 Spark 上实现 Graph Embedding
大数据·spark·embedding
程序猿小柒2 天前
【Spark】Spark SQL执行计划-精简版
大数据·sql·spark
隔着天花板看星星2 天前
Spark-Streaming集成Kafka
大数据·分布式·中间件·spark·kafka