SparkStructuredStreaming状态编程

spark官网关于spark有状态编程介绍比较少,本文是一篇个人理解关于spark状态编程。

官网关于状态编程代码例子:

spark/examples/src/main/scala/org/apache/spark/examples/sql/streaming/StructuredComplexSessionization.scala at v3.5.0 · apache/spark (github.com)

一般的流计算使用窗口函数可以解决大部分问题,但是一些比较复杂的业务,窗口函数无法解决,比如需要的数据范围大于你设定的时间窗口,那么就需要状态编程处理中间状态。

案例:

数据一秒一条被spark消费,我需要找到的绿色部分代表再生(再生开始PFltRgn_stRgnActv,PFltRgn_stRgnActvHld变为两个1,再生结束变为两个0),我需要知道PFltRgn_ctRgnSuc再生阶段变化是否大于等于2(true: 意味再生成功)

如果开一个5s滚动窗口(红色框框),窗口内无法解决这个需求,那么我就需要记录每个窗口中当符合再生条件(绿色)PFltRgn_ctRgnSuc的最小值和最大值(这个就是中间状态)

代码调试中:.....

相关推荐
Just_Do_IT_OK2 小时前
Docker--Spark
docker·容器·spark
会编程的李较瘦2 小时前
【Spark学习】数据清洗
学习·ajax·spark
百度Geek说1 天前
百度大数据成本治理实践
hadoop·spark
梦里不知身是客112 天前
sparkSQL连接报错的一个解决方法
spark
源码之家2 天前
基于Python房价预测系统 数据分析 Flask框架 爬虫 随机森林回归预测模型、链家二手房 可视化大屏 大数据毕业设计(附源码)✅
大数据·爬虫·python·随机森林·数据分析·spark·flask
2501_941142642 天前
云计算与大数据:现代企业数字化转型的双引擎
spark
Saniffer_SH2 天前
通过近期测试简单聊一下究竟是直接选择Nvidia Spark还是4090/5090 GPU自建环境
大数据·服务器·图像处理·人工智能·驱动开发·spark·硬件工程
Q26433650232 天前
【有源码】基于Python的睡眠压力监测分析系统-基于Spark数据挖掘的睡眠压力动态可视化分析系统
大数据·hadoop·python·机器学习·数据挖掘·spark·课程设计
阳爱铭3 天前
ClickHouse 中至关重要的两类复制表引擎——ReplicatedMergeTree和 ReplicatedReplacingMergeTree
大数据·hive·hadoop·sql·clickhouse·spark·hbase
2501_941089193 天前
5G技术与物联网的融合:智能城市与工业革命的加速器
spark