Spark-Streaming

UpdateStateByKey

原语用于记录历史记录,有时,我们需要在 DStream 中跨批次维护状态

updateStateByKey()为我们提供了对一个状态变量的访问,用于键值对形式的 DStream

为使用这个功能,需要做下面两步:

  1. 定义状态,状态可以是一个任意的数据类型。

  2. 定义状态更新函数,用此函数阐明如何使用之前的状态和来自输入流的新值对状态进行更新。

使用 updateStateByKey 需要对检查点目录进行配置,会使用检查点来保存状态。

Window Operations

可以设置窗口的大小和滑动窗口的间隔来动态的获取当前 Steaming 的允许状态。

基于窗口的操作需要两个参数

1.窗口时长:计算内容的时间范围

2.滑动步长:隔多久触发一次计算

这两者都必须为采集周期大小的整数倍

DStream输出

输出操作指定了对流数据经转化操作得到的数据所要执行的操作

与 RDD 中的惰性求值类似,如果一个 DStream 及其派生出的 DStream 都没有被执行输出操作,那么这些 DStream 就都不会被求值

连接不能写在 driver 层面(序列化)

如果写在 foreach 则每个 RDD 中的每一条数据都创建,得不偿失;

增加 foreachPartition,在分区创建(获取)

相关推荐
lisw0532 分钟前
编程语言top5对比分析!
大数据·人工智能·程序人生·机器学习·软件工程
打码人的日常分享33 分钟前
信息化系统安全建设方案
大数据·数据库·人工智能·安全·系统安全
幂简集成42 分钟前
需求从0到1:AI提示词助力客户画像→功能脑暴→PRD→价值主张
大数据·人工智能
lifallen2 小时前
Flink TCP Channel复用:NettyServer、NettyProtocol详解
大数据·flink·nio
Hello.Reader2 小时前
用 Flink 打造事件驱动流式应用从 DataStream 到 ProcessFunction
大数据·flink
jqy20252 小时前
什么是合同管理系统?6个核心功能介绍
大数据·合同 管理系统·电子合同管理
韩立学长2 小时前
【开题答辩实录分享】以《基于大数据的私人牙科诊所病例管理系统》为例进行答辩实录分享
大数据·管理系统
计算机编程小央姐2 小时前
大数据毕业设计选题推荐:基于Hadoop+Spark的全球能源消耗数据分析与可视化系统
大数据·hadoop·数据分析·spark·课程设计·毕设
计算机编程小央姐2 小时前
企业级大数据技术栈:基于Hadoop+Spark的全球经济指标分析与可视化系统实践
大数据·hadoop·hdfs·spark·echarts·numpy·课程设计
MoRanzhi12032 小时前
12. NumPy 数据分析与图像处理入门
大数据·图像处理·人工智能·python·矩阵·数据分析·numpy