【赵渝强老师】Spark Streaming中的DStream

要开发Spark Streaming应用程序,核心是通过StreamingContext创建DStream。因此DStream对象就是Spark Streaming中最核心的对象。DStream的全称是Discretized Stream,翻译成中文是离散流。它是Spark Streaming对流式数据的基本数据抽象,或者说是Spark Streaming的数据模型。DStream的核心是通过时间的采用间隔将连续的数据流转换成是一系列不连续的RDD,在由Transformation进行转换,从而达到处理流式数据的目的。因此从表现形式上看,DStream是由一系列连续的RDD组成,因此DStream也就具备了RDD的特性。

视频讲解如下:

Spark Streaming中的DStream
【赵渝强老师】Spark中的DStream

以上面开发的MyNetworkWordCount程序为例,StreamingContext将每个3秒采样一次流式数据生成对应的RDD,其生成RDD的过程如下图所示。

通过上图中可以看出DStream的表现形式其实就是RDD,因此操作DStream和操作RDD的本质其实是一样的。由于DStream是由一系列离散的RDD组成,因此Spark Streaming的其实是一个小批的处理模型,本质上依然还是一个批处理的离线计算。

相关推荐
Dreams°1232 分钟前
【Python爬虫 !!!!!!政府招投标数据爬虫项目--医疗实例项目文档(提供源码!!!)!!!学会Python爬虫轻松赚外快】
分布式·爬虫·python·mysql·scikit-learn
双流元宇宙产业园25 分钟前
元宇宙赛道新势力:成都芯谷产业园创新业务如何重构产业格局
大数据
tcoding1 小时前
《Hadoop 权威指南》笔记
大数据·hadoop·笔记
R²AIN SUITE1 小时前
快消零售AI转型:R²AIN SUITE如何破解效率困局
大数据·人工智能·产品运营
shengjk11 小时前
序列化和反序列化:从理论到实践的全方位指南
java·大数据·开发语言·人工智能·后端·ai编程
嗯.~2 小时前
数据清洗ETL
spark
大数网3 小时前
金融科技比惨:恒生电子减员2200人、宇信科技同比营收-24%,长亮科技同比净利-42%
大数据·人工智能·科技·金融
哲讯智能科技3 小时前
SAP汽配解决方案:无锡哲讯科技助力企业数字化转型
大数据
LuckyRich14 小时前
【RabbitMq C++】消息队列组件
c++·分布式·rabbitmq