【架构-37】Spark和Flink

架构和运行时模型

  1. Spark
    批处理为核心的架构扩展:Spark 最初是为批处理设计的,其架构以弹性分布式数据集(RDD)为核心。RDD 是一种分布式的内存抽象,可以让用户在集群上进行高效的并行计算。在 Spark 中,计算被划分为一系列的阶段(Stage),通过转换(Transformation)和行动(Action)操作来构建计算逻辑。例如,用户可以通过对 RDD 进行 map(映射)、reduce(归约)等转换操作来处理数据,当执行行动操作(如 collect、count)时,才会触发真正的计算过程。这种批处理架构使得 Spark 在处理大规模数据集的批量任务时表现出色,如大数据集的排序、过滤、聚合等操作。
    批处理和流处理的融合(Structured Streaming):随着发展,Spark 引入了 Structured Streaming 来支持流处理。它将流数据看作是一个不断追加的表,通过在流数据上定义类似于批处理的查询操作,实现流处理。这种方式在一定程度上实现了批处理和流处理的统一,但在底层实现上,仍然是基于微批处理(Micro - batch)的模式。即把流数据按照一定的时间间隔(如几百毫秒)划分成小的批次,然后像批处理一样进行处理。
  2. Flink
    原生的流处理架构:Flink 是一个原生的流处理系统,它的架构围绕着流(Stream)构建。在 Flink 的世界观里,一切都是流,包括批处理也被看作是一种特殊的流(有限流)。它采用事件驱动(Event - driven)的方式,能够以很低的延迟处理每个事件。例如,对于实时的传感器数据,Flink 可以逐个事件地进行处理,如实时计算传感器数据的平均值、检测异常事件等,而不需要等待数据积累成批次。
    分层架构支持多种计算模式:Flink 具有分层的架构,包括最底层的流计算引擎,中间层的 Table API 和 SQL,以及上层的各种库(如用于机器学习的 Flink ML、用于图计算的 Gelly 等)。这种架构使得 Flink 既可以进行高效的流处理,也可以通过将流转换为表(Table)来进行关系型查询和处理,还能方便地集成其他高级计算模式。例如,用户可以使用 Flink 的 Table API 像操作数据库表一样操作流数据,进行连接(Join)、分组(Group By)等操作。

数据处理模型

  1. Spark:主要是批处理框架,但也支持流处理(通过 Spark Streaming)。Spark Streaming 通过微批处理的方式处理流数据,即将流数据分成小批次进行处理。
  2. Flink:专注于流处理,提供真正的流式处理能力。Flink 的流处理是事件驱动的,可以处理无界流数据,且支持低延迟。

延迟

  1. Spark:由于微批处理的特性,Spark Streaming 的延迟相对较高,通常在几秒到几分钟之间。
  2. Flink:提供更低的延迟,通常在毫秒级别,适合实时数据处理。

编程模型和 API 易用性

  1. Spark:提供了丰富的 API,包括 DataFrame 和 Dataset API,适合批处理和流处理的场景。
  2. Flink:提供了更为灵活的流处理 API,支持事件时间处理、窗口等高级特性,适合复杂的流处理应用。

使用场景:

  1. Spark:适合批处理和需要较高容错性的场景,如大规模数据分析和机器学习。
  2. Flink:适合实时流处理和低延迟需求的场景,如实时监控、事件驱动应用等。
相关推荐
Hello.Reader8 小时前
Flink ZooKeeper HA 实战原理、必配项、Kerberos、安全与稳定性调优
安全·zookeeper·flink
uesowys8 小时前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
yunteng5219 小时前
通用架构(同城双活)(单点接入)
架构·同城双活·单点接入
麦聪聊数据9 小时前
Web 原生架构如何重塑企业级数据库协作流?
数据库·sql·低代码·架构
程序员侠客行10 小时前
Mybatis连接池实现及池化模式
java·后端·架构·mybatis
Hello.Reader11 小时前
Flink 使用 Amazon S3 读写、Checkpoint、插件选择与性能优化
大数据·flink
bobuddy12 小时前
射频收发机架构简介
架构·射频工程
桌面运维家12 小时前
vDisk考试环境IO性能怎么优化?VOI架构实战指南
架构
Hello.Reader12 小时前
Flink 对接 Google Cloud Storage(GCS)读写、Checkpoint、插件安装与生产配置指南
大数据·flink
Hello.Reader12 小时前
Flink Kubernetes HA(高可用)实战原理、前置条件、配置项与数据保留机制
贪心算法·flink·kubernetes