【赵渝强老师】Spark Streaming中的DStream

要开发Spark Streaming应用程序,核心是通过StreamingContext创建DStream。因此DStream对象就是Spark Streaming中最核心的对象。DStream的全称是Discretized Stream,翻译成中文是离散流。它是Spark Streaming对流式数据的基本数据抽象,或者说是Spark Streaming的数据模型。DStream的核心是通过时间的采用间隔将连续的数据流转换成是一系列不连续的RDD,在由Transformation进行转换,从而达到处理流式数据的目的。因此从表现形式上看,DStream是由一系列连续的RDD组成,因此DStream也就具备了RDD的特性。

视频讲解如下:

Spark Streaming中的DStream
【赵渝强老师】Spark中的DStream

以上面开发的MyNetworkWordCount程序为例,StreamingContext将每个3秒采样一次流式数据生成对应的RDD,其生成RDD的过程如下图所示。

通过上图中可以看出DStream的表现形式其实就是RDD,因此操作DStream和操作RDD的本质其实是一样的。由于DStream是由一系列离散的RDD组成,因此Spark Streaming的其实是一个小批的处理模型,本质上依然还是一个批处理的离线计算。

相关推荐
ZKNOW甄知科技8 小时前
AI-ITSM的时代正在到来:深度解读Gartner最新报告
大数据·运维·人工智能·低代码·网络安全·微服务·重构
xinyuan_1234568 小时前
数智化招采平台实战指南:AI如何让采购管理实现效率与价值落地
大数据·人工智能
Tezign_space8 小时前
技术实战:Crocs如何构建AI驱动的智能内容矩阵,实现内容播放量提升470%?
大数据·人工智能·矩阵·aigc·内容运营·多智能体系统·智能内容矩阵
八月瓜科技8 小时前
八月瓜科技参与“数据要素驱动产业升级”活动,分享【数据赋能科技创新全链条】
java·大数据·人工智能·科技·机器人·程序员创富
梁萌8 小时前
分布式事物seata的AT模式实战
分布式·微服务·实战·seata·一致性·事物
shaohaoyongchuang8 小时前
01-分布式基础-创建微服务项目
分布式·微服务·架构
梦里不知身是客118 小时前
flink的CDC 的种类
大数据·flink
TOWE technology9 小时前
PDU、工业连接器与数据中心机柜电力系统
大数据·人工智能·数据中心·idc·pdu·智能pdu·定制电源管理
五度易链-区域产业数字化管理平台9 小时前
行业研究+大数据+AI:“五度易链”如何构建高质量产业数据库?
大数据·人工智能