【赵渝强老师】Spark Streaming中的DStream

要开发Spark Streaming应用程序,核心是通过StreamingContext创建DStream。因此DStream对象就是Spark Streaming中最核心的对象。DStream的全称是Discretized Stream,翻译成中文是离散流。它是Spark Streaming对流式数据的基本数据抽象,或者说是Spark Streaming的数据模型。DStream的核心是通过时间的采用间隔将连续的数据流转换成是一系列不连续的RDD,在由Transformation进行转换,从而达到处理流式数据的目的。因此从表现形式上看,DStream是由一系列连续的RDD组成,因此DStream也就具备了RDD的特性。

视频讲解如下:

Spark Streaming中的DStream
【赵渝强老师】Spark中的DStream

以上面开发的MyNetworkWordCount程序为例,StreamingContext将每个3秒采样一次流式数据生成对应的RDD,其生成RDD的过程如下图所示。

通过上图中可以看出DStream的表现形式其实就是RDD,因此操作DStream和操作RDD的本质其实是一样的。由于DStream是由一系列离散的RDD组成,因此Spark Streaming的其实是一个小批的处理模型,本质上依然还是一个批处理的离线计算。

相关推荐
阿里云大数据AI技术12 分钟前
阿里云 EMR Serverless Spark TPC-DS 100T 榜首背后的内核技术
spark
lisw0524 分钟前
机器人系统:化学研究的超空间引擎——从自动化到智能化的范式革命
大数据·人工智能·科技·机器学习·机器人
卓豪终端管理28 分钟前
实力领跑!卓豪荣获 2026 高德纳双料认可
大数据·数据库·人工智能
打工的小王40 分钟前
消息队列之Kafka(一)搭建服务
分布式·kafka
新诺韦尔API1 小时前
手机二要素验证和银行卡二要素验证接口的区别?
大数据·api
weixin199701080161 小时前
Tume商品详情页前端性能优化实战
大数据·前端·java-rabbitmq
未来之窗软件服务2 小时前
平台对接(2)美团/抖音/饿了么/有赞/微信/京东券核销服务商模式—东方仙盟
大数据·运维·微信·平台对接·仙盟创梦ide·东方仙盟·东方仙盟sdk
2501_944934732 小时前
大专信息统计与分析专业,怎么提升Excel高级函数的使用能力?
大数据·excel
康康的AI博客2 小时前
AI模型压缩与优化:如何通过蒸馏提升模型的运行效率
大数据·人工智能
藦卡机器人2 小时前
国产包装机器人品牌推荐
大数据·人工智能·机器人