【赵渝强老师】Spark Streaming中的DStream

要开发Spark Streaming应用程序,核心是通过StreamingContext创建DStream。因此DStream对象就是Spark Streaming中最核心的对象。DStream的全称是Discretized Stream,翻译成中文是离散流。它是Spark Streaming对流式数据的基本数据抽象,或者说是Spark Streaming的数据模型。DStream的核心是通过时间的采用间隔将连续的数据流转换成是一系列不连续的RDD,在由Transformation进行转换,从而达到处理流式数据的目的。因此从表现形式上看,DStream是由一系列连续的RDD组成,因此DStream也就具备了RDD的特性。

视频讲解如下:

Spark Streaming中的DStream
【赵渝强老师】Spark中的DStream

以上面开发的MyNetworkWordCount程序为例,StreamingContext将每个3秒采样一次流式数据生成对应的RDD,其生成RDD的过程如下图所示。

通过上图中可以看出DStream的表现形式其实就是RDD,因此操作DStream和操作RDD的本质其实是一样的。由于DStream是由一系列离散的RDD组成,因此Spark Streaming的其实是一个小批的处理模型,本质上依然还是一个批处理的离线计算。

相关推荐
prince051 天前
用户积分系统怎么设计
java·大数据·数据库
什么时候才能变强1 天前
竞态条件场景、测试思路讲解
大数据
Javatutouhouduan1 天前
大厂面试真题汇总(2026版)
分布式·微服务·java面试·java面试题·后端开发·java程序员·java八股文
QYR_111 天前
香叶醇行业深度解析:香精香料领域核心原料的发展潜力与挑战
大数据·人工智能·物联网
港股研究社1 天前
腾讯音乐的多元增长新路径:音乐IP经济
大数据·人工智能·tcp/ip
GIOTTO情1 天前
技术解析:Infoseek基于AI重构媒介投放全链路,适配2026年奥斯卡高端投放场景
大数据·人工智能
Data-Miner1 天前
46页精品PPT | 数据治理大数据平台资源规划与建设解决方案
大数据
信道者1 天前
乌克兰开放战场数据宝库:AI无人机迎来“实战级”进化
大数据·人工智能·无人机
margu_1681 天前
【Elasticsearch】es7.2单节点集群内索引重组迁移
大数据·elasticsearch