【赵渝强老师】Spark Streaming中的DStream

要开发Spark Streaming应用程序,核心是通过StreamingContext创建DStream。因此DStream对象就是Spark Streaming中最核心的对象。DStream的全称是Discretized Stream,翻译成中文是离散流。它是Spark Streaming对流式数据的基本数据抽象,或者说是Spark Streaming的数据模型。DStream的核心是通过时间的采用间隔将连续的数据流转换成是一系列不连续的RDD,在由Transformation进行转换,从而达到处理流式数据的目的。因此从表现形式上看,DStream是由一系列连续的RDD组成,因此DStream也就具备了RDD的特性。

视频讲解如下:

Spark Streaming中的DStream
【赵渝强老师】Spark中的DStream

以上面开发的MyNetworkWordCount程序为例,StreamingContext将每个3秒采样一次流式数据生成对应的RDD,其生成RDD的过程如下图所示。

通过上图中可以看出DStream的表现形式其实就是RDD,因此操作DStream和操作RDD的本质其实是一样的。由于DStream是由一系列离散的RDD组成,因此Spark Streaming的其实是一个小批的处理模型,本质上依然还是一个批处理的离线计算。

相关推荐
武子康3 分钟前
大数据-254 离线数仓 - Airflow 任务调度与工作流管理实战
大数据·后端·apache hive
NOCSAH10 分钟前
持续进化:从ERP到数智一体化,AI深度融入全链路
大数据·人工智能·统好ai·数智一体化平台
央链知播14 分钟前
何超稂时丽参加2026北京国际科幻与未来产业博览会
大数据·人工智能·业界资讯
@insist12317 分钟前
网络工程师-核心考点:存储体系与系统可靠性计算
大数据·网络工程师·软考·软件水平考试
深眸财经1 小时前
安踏与特步的“隐秘角落”
大数据·人工智能
多年小白1 小时前
【无标题】
大数据·人工智能·科技·ai·ai编程
weixin199701080161 小时前
《深入浅出:图解淘宝分布式数据库TDDL(及开源替代方案)》
数据库·分布式·开源
数据库小组2 小时前
Oracle 上云 / 替代场景下,NineData 完成到 PostgreSQL 的低风险迁移
大数据·数据库·mysql·postgresql·oracle·数据一致性·数据库迁移
EasyDSS2 小时前
企业级私有化视频会议系统EasyDSS私有化部署赋能企业高效安全培训
大数据·安全
sunxunyong2 小时前
HDFS nnsdy重新配置启动
大数据·hadoop·hdfs