Spark Streaming

Spark Streaming

  • [Spark Streaming](#Spark Streaming)
    • 一、应用场景
    • 二、核心机制
    • [三、Spark Streaming的程序执行入口](#三、Spark Streaming的程序执行入口)
      • [3.1 StreamingContext](#3.1 StreamingContext)
      • [3.2 StreamingContext的使用步骤](#3.2 StreamingContext的使用步骤)
        • [3.2.1 创建程序执行入口](#3.2.1 创建程序执行入口)
        • [3.2.2 根据数据源创建数据抽象DStream](#3.2.2 根据数据源创建数据抽象DStream)
        • [3.2.3 调用DStream的算子进行数据计算](#3.2.3 调用DStream的算子进行数据计算)
        • [3.2.4 调用StreamingContext的start方法启动实时计算](#3.2.4 调用StreamingContext的start方法启动实时计算)
        • [3.2.5 调用StreamingContext的awaitxxxx等待实时计算运行](#3.2.5 调用StreamingContext的awaitxxxx等待实时计算运行)
    • 四、DStream的创建
      • [4.1 从网络端口创建DStream](#4.1 从网络端口创建DStream)
      • [4.2 从外部文件中创建DStream](#4.2 从外部文件中创建DStream)
      • [4.3 Flume/Kafka](#4.3 Flume/Kafka)
    • 五、DStream的算子操作
      • [5.1 DStream是由时间批次组成RDD的集合](#5.1 DStream是由时间批次组成RDD的集合)
      • [5.2 无状态算子](#5.2 无状态算子)
      • [5.3 有状态算子](#5.3 有状态算子)
      • [5.4 窗口算子](#5.4 窗口算子)
    • 六、DStream的输出操作
      • [6.1 print操作](#6.1 print操作)
      • [6.2 saveAsTextFile/ObjectFile](#6.2 saveAsTextFile/ObjectFile)
      • [6.3 foreachRDD操作](#6.3 foreachRDD操作)
    • [七、Spark Streaming的WAL预写日志](#七、Spark Streaming的WAL预写日志)
      • [7.1 如何开启WAL预写日志](#7.1 如何开启WAL预写日志)
        • [7.1.1 设置ssc的检查点目录](#7.1.1 设置ssc的检查点目录)
        • [7.1.2 给SparkConf中增加一个配置项](#7.1.2 给SparkConf中增加一个配置项)

Spark Streaming

一、应用场景

实时计算的,一般使用在实时性要求比较高的场合。但是Spark Streaming内部采用批次计算的机制实现实时计算,一般情况下Spark Streaming也称之为准实时计算框架,批处理框架。

二、核心机制

核心采用了一个新的数据抽象DStream,DStream是多个RDD的集成体,DStream中采用时间批次的概念,将一段时间之间的数据封装为一个RDD,然后统一处理一次

三、Spark Streaming的程序执行入口

3.1 StreamingContext

3.2 StreamingContext的使用步骤

3.2.1 创建程序执行入口
3.2.2 根据数据源创建数据抽象DStream
3.2.3 调用DStream的算子进行数据计算
3.2.4 调用StreamingContext的start方法启动实时计算
3.2.5 调用StreamingContext的awaitxxxx等待实时计算运行

程序资源的问题,一般情况下,SparkStreaming的运行资源线程数一般大于等于2,receiver接收器接受数据源的数据封装称为batch批次数据时,batch数据可以自己设置存储位置,默认在内存和硬盘序列化存储2份

四、DStream的创建

4.1 从网络端口创建DStream

4.2 从外部文件中创建DStream

从外部文件中创建DStream(可以是本地文件系统的,也可以是HDFS文件系统):textFileStream fileStream 文件读取机制采用的是MapReduce中InputFormat机制来读取的

4.1~4.2:基础数据源

4.3 Flume/Kafka

高级数据源

五、DStream的算子操作

5.1 DStream是由时间批次组成RDD的集合

5.2 无状态算子

算子只对当前批次的数据有效,前一个批次的计算结果不清楚

  1. RDD中涉及的算子DStream基本都有,这些算子基本上都是无状态算子
  2. transform 算子直接对DStream中的RDD进行运算的

5.3 有状态算子

算子会记录前一个批次的计算结果,然后在和当前批次进行计算updateStateByKey

使用前提必须开启检查点目录

5.4 窗口算子

将n个批次的数据划分称为一个窗口。然后对窗口统一的运算

window 两个核心参数:

  1. windowDuration:窗口的宽度(包含多少个批次的数据)
  2. slideDuration:窗口的间隔(从前一个窗口的第批次条数据到第二个窗口的第一批次数据的间隔)

六、DStream的输出操作

6.1 print操作

6.2 saveAsTextFile/ObjectFile

6.3 foreachRDD操作

可以实现Spark Streaming和Spark的其他组件的无缝衔接

七、Spark Streaming的WAL预写日志

Spark Streaming运行的时候需要一个Receiver接收器接受数据,接受的数据设置缓存的地方,Receiver接受的数据一旦丢失,就算Spark有容错机制,无法计算了,因为没有数据源的数据了。

为了保证数据的安全性,防止了Receiver接受的数据丢失,可以开启Spark Streaming的预写日志WAL,WAL可以实现将Receiver每一批次的数据缓存到Spark的检查点目录。 因为一旦开启了WAL,程序的执行效率会非常的低

7.1 如何开启WAL预写日志

7.1.1 设置ssc的检查点目录
7.1.2 给SparkConf中增加一个配置项

spark.streaming.receiver.writeAheadLog.enable = true

相关推荐
q_35488851532 小时前
AI大模型:python新能源汽车推荐系统 协同过滤推荐算法 Echarts可视化 Django框架 大数据毕业设计(源码+文档)✅
大数据·人工智能·python·机器学习·信息可视化·汽车·推荐算法
Blossom.1184 小时前
AI Agent智能办公助手:从ChatGPT到真正“干活“的系统
人工智能·分布式·python·深度学习·神经网络·chatgpt·迁移学习
a努力。4 小时前
2026 AI 编程终极套装:Claude Code + Codex + Gemini CLI + Antigravity,四位一体实战指南!
java·开发语言·人工智能·分布式·python·面试
安科瑞小许5 小时前
新能源并网中的“孤岛”与“逆流”:电力安全背后的防护技术解析
分布式·安全·能源·光伏·防逆流
一只专注api接口开发的技术猿7 小时前
微服务架构下集成淘宝商品 API 的实践与思考
java·大数据·开发语言·数据库·微服务·架构
AC赳赳老秦7 小时前
Dify工作流+DeepSeek:运维自动化闭环(数据采集→报告生成)
android·大数据·运维·数据库·人工智能·golang·deepseek
明洞日记7 小时前
【软考每日一练009】计算机系统性能评价:基准程序分类与 TPC 实战案例详解
大数据·数据库
李慕婉学姐7 小时前
【开题答辩过程】以《基于Spring Boot和大数据的医院挂号系统的设计与实现》为例,不知道这个选题怎么做的,不知道这个选题怎么开题答辩的可以进来看看
大数据·spring boot·后端
汽车仪器仪表相关领域8 小时前
全程高温伴热,NOx瞬态精准捕捉:MEXA-1170HCLD加热型NOx测定装置项目实战全解
大数据·服务器·网络·人工智能·功能测试·单元测试·可用性测试
橙露8 小时前
嵌入式实时操作系统 FreeRTOS:任务调度与信号量的核心应用
java·大数据·服务器