Spark-Streaming简介 核心编程

  1. Spark-Streaming概述

定义:用于处理流式数据,支持多种数据输入源,可运用Spark原语运算,结果能保存于多处。它以离散化流(DStream)为抽象表示,是RDD在实时数据处理场景的封装。

特点:易用,支持多语言编写实时计算程序;容错,可恢复丢失数据;易整合,能在Spark上运行,结合离线处理实现交互式查询。

  1. Spark-Streaming架构:包含背压机制,1.5版本前靠设置静态参数限制Receiver数据接收速率,易导致资源利用率低。1.5版本起可动态调整,通过"spark.streaming.backpressure.enabled"控制,默认不启用。

  2. DStream实操 - WordCount案例

  1. RDD队列创建DStream:可利用 ssc.queueStream(queueOfRDDs) 创建DStream,队列中的每个RDD都会被当作一个DStream处理。
  1. 自定义数据源创建DStream:自定义数据源需继承Receiver并实现 onStart 、 onStop 方法。
相关推荐
点赋科技10 分钟前
沙市区举办资本市场赋能培训会 点赋科技分享智能消费新实践
大数据·人工智能
YSGZJJ30 分钟前
股指期货技术分析与短线操作方法介绍
大数据·人工智能
Doker 多克36 分钟前
Flink CDC —部署模式
大数据·flink
Guheyunyi40 分钟前
监测预警系统重塑隧道安全新范式
大数据·运维·人工智能·科技·安全
Channing Lewis2 小时前
如果科技足够发达,是否还需要维持自然系统(例如生物多样性)中那种‘冗余’和‘多样性’,还是可以只保留最优解?
大数据·人工智能·科技
禺垣2 小时前
区块链技术概述
大数据·人工智能·分布式·物联网·去中心化·区块链
IvanCodes3 小时前
七、Sqoop Job:简化与自动化数据迁移任务及免密执行
大数据·数据库·hadoop·sqoop
冬至喵喵4 小时前
【hive】函数集锦:窗口函数、列转行、日期函数
大数据·数据仓库·hive·hadoop
暗影八度5 小时前
Spark流水线+Gravitino+Marquez数据血缘采集
大数据·分布式·spark