Spark-Streaming简介 核心编程

  1. Spark-Streaming概述

定义:用于处理流式数据,支持多种数据输入源,可运用Spark原语运算,结果能保存于多处。它以离散化流(DStream)为抽象表示,是RDD在实时数据处理场景的封装。

特点:易用,支持多语言编写实时计算程序;容错,可恢复丢失数据;易整合,能在Spark上运行,结合离线处理实现交互式查询。

  1. Spark-Streaming架构:包含背压机制,1.5版本前靠设置静态参数限制Receiver数据接收速率,易导致资源利用率低。1.5版本起可动态调整,通过"spark.streaming.backpressure.enabled"控制,默认不启用。

  2. DStream实操 - WordCount案例

  1. RDD队列创建DStream:可利用 ssc.queueStream(queueOfRDDs) 创建DStream,队列中的每个RDD都会被当作一个DStream处理。
  1. 自定义数据源创建DStream:自定义数据源需继承Receiver并实现 onStart 、 onStop 方法。
相关推荐
二二孚日14 分钟前
自用华为ICT云赛道Big Data第四章知识点-Flink流批一体分布式实时处理引擎
大数据·华为
xufwind1 小时前
spark standlone 集群离线安装
大数据·分布式·spark
AI数据皮皮侠2 小时前
中国区域10m空间分辨率楼高数据集(全国/分省/分市/免费数据)
大数据·人工智能·机器学习·分类·业界资讯
DeepSeek大模型官方教程3 小时前
NLP之文本纠错开源大模型:兼看语音大模型总结
大数据·人工智能·ai·自然语言处理·大模型·产品经理·大模型学习
大数据CLUB4 小时前
基于spark的奥运会奖牌变化数据分析
大数据·hadoop·数据分析·spark
Edingbrugh.南空4 小时前
Hadoop高可用集群搭建
大数据·hadoop·分布式
智慧化智能化数字化方案4 小时前
69页全面预算管理体系的框架与落地【附全文阅读】
大数据·人工智能·全面预算管理·智慧财务·智慧预算
武子康5 小时前
大数据-33 HBase 整体架构 HMaster HRegion
大数据·后端·hbase
诗旸的技术记录与分享19 小时前
Flink-1.19.0源码详解-番外补充3-StreamGraph图
大数据·flink
资讯分享周19 小时前
Alpha系统联结大数据、GPT两大功能,助力律所管理降本增效
大数据·gpt