【赵渝强老师】Spark Streaming中的DStream

要开发Spark Streaming应用程序,核心是通过StreamingContext创建DStream。因此DStream对象就是Spark Streaming中最核心的对象。DStream的全称是Discretized Stream,翻译成中文是离散流。它是Spark Streaming对流式数据的基本数据抽象,或者说是Spark Streaming的数据模型。DStream的核心是通过时间的采用间隔将连续的数据流转换成是一系列不连续的RDD,在由Transformation进行转换,从而达到处理流式数据的目的。因此从表现形式上看,DStream是由一系列连续的RDD组成,因此DStream也就具备了RDD的特性。

视频讲解如下:

Spark Streaming中的DStream
【赵渝强老师】Spark中的DStream

以上面开发的MyNetworkWordCount程序为例,StreamingContext将每个3秒采样一次流式数据生成对应的RDD,其生成RDD的过程如下图所示。

通过上图中可以看出DStream的表现形式其实就是RDD,因此操作DStream和操作RDD的本质其实是一样的。由于DStream是由一系列离散的RDD组成,因此Spark Streaming的其实是一个小批的处理模型,本质上依然还是一个批处理的离线计算。

相关推荐
T062051414 分钟前
【面板数据】A股上市公司重污染行业分组数据集-含参考文献 (2000-2024年)
大数据
cm_chenmin22 分钟前
Cursor最佳实践之三:MCP
大数据·elasticsearch·搜索引擎
Loo国昌1 小时前
【AI应用开发实战】09_Prompt工程与模板管理:构建可演进的LLM交互层
大数据·人工智能·后端·python·自然语言处理·prompt
Coder_Boy_1 小时前
Java后端核心技术体系全解析(个人总结)
java·开发语言·spring boot·分布式·spring cloud·中间件
xrczsjq2 小时前
客流增长新观察:从三个重庆案例看商业街区设计的演变
大数据·文旅商业美陈设计·商场氛围布置·文旅街区升级改造·商业美陈设计·商场美陈设计·商业街区设计
人机与认知实验室2 小时前
2026:人形机器人的未来发展趋势
大数据·人工智能·机器人
YangYang9YangYan2 小时前
2026中专大数据技术专业学数据分析的实用性分析
大数据·数据挖掘·数据分析
YangYang9YangYan2 小时前
2026大专大数据专业学数据分析的价值与前景分析
大数据·数据挖掘·数据分析
星辰_mya3 小时前
Kafka 的 KRaft 模式
分布式·kafka
TDengine (老段)3 小时前
TDengine IDMP 数据可视化——富文本
大数据·数据库·物联网·ai·时序数据库·tdengine·涛思数据