【赵渝强老师】Spark Streaming中的DStream

要开发Spark Streaming应用程序,核心是通过StreamingContext创建DStream。因此DStream对象就是Spark Streaming中最核心的对象。DStream的全称是Discretized Stream,翻译成中文是离散流。它是Spark Streaming对流式数据的基本数据抽象,或者说是Spark Streaming的数据模型。DStream的核心是通过时间的采用间隔将连续的数据流转换成是一系列不连续的RDD,在由Transformation进行转换,从而达到处理流式数据的目的。因此从表现形式上看,DStream是由一系列连续的RDD组成,因此DStream也就具备了RDD的特性。

视频讲解如下:

Spark Streaming中的DStream
【赵渝强老师】Spark中的DStream

以上面开发的MyNetworkWordCount程序为例,StreamingContext将每个3秒采样一次流式数据生成对应的RDD,其生成RDD的过程如下图所示。

通过上图中可以看出DStream的表现形式其实就是RDD,因此操作DStream和操作RDD的本质其实是一样的。由于DStream是由一系列离散的RDD组成,因此Spark Streaming的其实是一个小批的处理模型,本质上依然还是一个批处理的离线计算。

相关推荐
Wang's Blog23 分钟前
Elastic Stack梳理:索引与查询时的分词应用、配置优化与工程实践
大数据·elasticsearch·搜索引擎
Hy行者勇哥1 小时前
从人工账本到智能终端:智能硬件核算碳排放的 演进史
大数据·人工智能·边缘计算·智能硬件
LDG_AGI1 小时前
【推荐系统】深度学习训练框架(七):PyTorch DDP(DistributedDataParallel)中,每个rank的batch数必须相同
网络·人工智能·pytorch·深度学习·机器学习·spark·batch
码界奇点2 小时前
Java大数据在智能教育个性化学习资源推荐中的冷启动解决方案
java·大数据·学习·动画·推荐算法
数智化架构师-Aloong2 小时前
⚡️ PowerJob深度解析:Java生态下高并发分布式调度的终极选择
java·开发语言·分布式·系统架构
TDengine (老段)2 小时前
一文讲清 TDengine IDMP 资产数据导入
大数据·数据库·ai·时序数据库·tdengine·涛思数据
人大博士的交易之路2 小时前
今日行情明日机会——20251201
大数据·数学建模·数据挖掘·数据分析·缠论·道琼斯结构·涨停板
秋邱2 小时前
技术深耕:教育 AGI 的能力跃迁与安全加固
大数据·人工智能
HAPPY酷3 小时前
技术沟通的底层逻辑:用结构化方法提升协作效率
大数据·人工智能
原神启动13 小时前
云计算大数据——MySQL数据库一(数据库基础与MySQL安装)
大数据·数据库·云计算