【赵渝强老师】Spark Streaming中的DStream

要开发Spark Streaming应用程序,核心是通过StreamingContext创建DStream。因此DStream对象就是Spark Streaming中最核心的对象。DStream的全称是Discretized Stream,翻译成中文是离散流。它是Spark Streaming对流式数据的基本数据抽象,或者说是Spark Streaming的数据模型。DStream的核心是通过时间的采用间隔将连续的数据流转换成是一系列不连续的RDD,在由Transformation进行转换,从而达到处理流式数据的目的。因此从表现形式上看,DStream是由一系列连续的RDD组成,因此DStream也就具备了RDD的特性。

视频讲解如下:

Spark Streaming中的DStream
【赵渝强老师】Spark中的DStream

以上面开发的MyNetworkWordCount程序为例,StreamingContext将每个3秒采样一次流式数据生成对应的RDD,其生成RDD的过程如下图所示。

通过上图中可以看出DStream的表现形式其实就是RDD,因此操作DStream和操作RDD的本质其实是一样的。由于DStream是由一系列离散的RDD组成,因此Spark Streaming的其实是一个小批的处理模型,本质上依然还是一个批处理的离线计算。

相关推荐
档案宝档案管理4 小时前
档案宝自动化档案管理,从采集、整理到归档、利用,一步到位
大数据·数据库·人工智能·档案·档案管理
郑州光合科技余经理5 小时前
技术架构:上门服务APP海外版源码部署
java·大数据·开发语言·前端·架构·uni-app·php
云器科技5 小时前
告别Spark?大数据架构的十字路口与技术抉择
大数据·架构·spark·lakehouse·数据湖仓
小股虫6 小时前
主流注册中心技术选型:CAP理论与业务实战的平衡艺术
分布式·微服务·架构
zhongerzixunshi6 小时前
把握申报机遇 赋能高质量发展
大数据·人工智能
少许极端7 小时前
Redis入门指南(五):从零到分布式缓存-其他类型及Java客户端操作redis
java·redis·分布式·缓存
AI数据皮皮侠7 小时前
中国乡村旅游重点村镇数据
大数据·人工智能·python·深度学习·机器学习
小北方城市网8 小时前
第 11 课:Python 全栈项目进阶与职业发展指南|从项目到职场的无缝衔接(课程终章・进阶篇)
大数据·开发语言·人工智能·python·数据库架构·geo
躺柒8 小时前
读共生:4.0时代的人机关系06人机合作关系
大数据·人工智能·人机协作·人机对话·人机合作
天远数科9 小时前
前端体验优化:用Node.js中间件无缝集成天远手机号码归属地核验服务
大数据·api