【赵渝强老师】Spark Streaming中的DStream

要开发Spark Streaming应用程序,核心是通过StreamingContext创建DStream。因此DStream对象就是Spark Streaming中最核心的对象。DStream的全称是Discretized Stream,翻译成中文是离散流。它是Spark Streaming对流式数据的基本数据抽象,或者说是Spark Streaming的数据模型。DStream的核心是通过时间的采用间隔将连续的数据流转换成是一系列不连续的RDD,在由Transformation进行转换,从而达到处理流式数据的目的。因此从表现形式上看,DStream是由一系列连续的RDD组成,因此DStream也就具备了RDD的特性。

视频讲解如下:

Spark Streaming中的DStream
【赵渝强老师】Spark中的DStream

以上面开发的MyNetworkWordCount程序为例,StreamingContext将每个3秒采样一次流式数据生成对应的RDD,其生成RDD的过程如下图所示。

通过上图中可以看出DStream的表现形式其实就是RDD,因此操作DStream和操作RDD的本质其实是一样的。由于DStream是由一系列离散的RDD组成,因此Spark Streaming的其实是一个小批的处理模型,本质上依然还是一个批处理的离线计算。

相关推荐
江不清丶17 分钟前
Kafka消息幂等性深度解析:从重复消费到Exactly-Once的终极方案
分布式·kafka
做一个AK梦2 小时前
RedisForValueService.setIfAbsent()
java·分布式
geneculture2 小时前
从“三亲三同”到“信智序位”:数字时代社会关系范式的重构
大数据·人工智能·融智学的重要应用·哲学与科学统一性·融智时代(杂志)
zylyyyyyy2 小时前
虚拟机X OpenClaw——一键“幻”养“龙虾”
大数据·人工智能·云计算
Smoothcloud润云2 小时前
Seedance 2.0深度解析:从“抽卡地狱”到工业化视频创作的革命
大数据·人工智能·计算机视觉·语言模型·ai作画·音视频·语音识别
sunxunyong4 小时前
spark History Server 重启失败
大数据·分布式·spark
方向研究5 小时前
浮法玻璃FG生产
大数据
YangYang9YangYan5 小时前
2026大专大数据科学专业就业市场竞争激烈吗?
大数据
KKKlucifer5 小时前
能源行业数据分类分级标准与落地实践
大数据
码农小白AI6 小时前
IACheck赋能教学实验样品分析检测,AI报告审核保障实验报告精准可靠
大数据·人工智能