【赵渝强老师】Spark Streaming中的DStream

  要开发Spark Streaming应用程序,核心是通过StreamingContext创建DStream。因此DStream对象就是Spark Streaming中最核心的对象。DStream的全称是Discretized Stream,翻译成中文是离散流。它是Spark Streaming对流式数据的基本数据抽象,或者说是Spark Streaming的数据模型。DStream的核心是通过时间的采用间隔将连续的数据流转换成是一系列不连续的RDD,在由Transformation进行转换,从而达到处理流式数据的目的。因此从表现形式上看,DStream是由一系列连续的RDD组成,因此DStream也就具备了RDD的特性。

  视频讲解如下:

Spark Streaming中的DStream
【赵渝强老师】Spark中的DStream

  以上面开发的MyNetworkWordCount程序为例,StreamingContext将每个3秒采样一次流式数据生成对应的RDD,其生成RDD的过程如下图所示。

  通过上图中可以看出DStream的表现形式其实就是RDD,因此操作DStream和操作RDD的本质其实是一样的。由于DStream是由一系列离散的RDD组成,因此Spark Streaming的其实是一个小批的处理模型,本质上依然还是一个批处理的离线计算。

相关推荐
器灵科技2 分钟前
DeepSeek V4 Pro宣称:超GPT-5.5+永久降价75%
大数据·人工智能·gpt·阿里云·ai·语言模型
Solis程序员2 分钟前
Kafka 灾难回放机制:基于事件事实流的计数全量恢复方案
分布式·kafka
yyoc977 分钟前
本地 Flink on K8s + Iceberg + MinIO 实时数仓平台 — AI部署指南与踩坑实录
大数据·ai·flink·kubernetes·iceberg
Elias不吃糖18 分钟前
RabbitMQ vs Kafka 简单总结
java·分布式·kafka·rabbitmq
阿坤带你走近大数据22 分钟前
flink的架构介绍
大数据·架构·flink
2501_9467862028 分钟前
2026算法分级分类备案TOP5解读——吃透差异化监管,规避过度合规风险
大数据
IPDEEP全球代理29 分钟前
TikTok为什么封号?应该怎么解决?(附IP环境解决方案)
大数据
xyz_CDragon41 分钟前
把旧电脑变成AI算力:llama.cpp RPC 局域网分布式推理验证与实战
人工智能·分布式·python·rpc·llama
专注于大数据技术栈1 小时前
什么是Trino?大数据统一联邦查询引擎详解
大数据·数据库
中议视控1 小时前
网络可编程中央控制系统与4K坐席分布式节点的TCP/UDP协议对接技术
网络·分布式·tcp/ip