Flink学习(二)-基础概念

一、流处理

分为有界流(bounded stream )和无界流(unbounded stream)。

通过上图 ,可以知道,

有界流:有明显的边界;而无界流,则只有开始,没有结束。

批处理是有界数据流处理的范例。在这种模式下,你可以选择在计算结果输出之前输入整个数据集,这也就意味着你可以对整个数据集的数据进行排序、统计或汇总计算后再输出结果。

流处理正相反,其涉及无界数据流。至少理论上来说,它的数据输入永远不会结束,因此程序必须持续不断地对到达的数据进行处理。

由 source 开始、经过自定义算子转换(Transformation)成的 dataflow后,以一个或者多个 sink 结束。

三、算子之间数据传输方式

1,一对一直传)模式

可以保留元素的分区和顺序信息,即同一分区的数据只会进入到下游算子的同一分区。

2,重新分发模式

会更改数据所在的流分区。当你在程序中选择使用不同的 transformation ,每个算子子任务也会根据不同的 transformation 将数据发送到不同的目标子任务。

常见的数据分发模式

  • keyBy()(通过散列键重新分区);
  • broadcast()(广播);
  • rebalance()(随机重新分发)

四、自定义时间流处理

关注事件本身发生的顺序而不是事件被传输以及处理的顺序;

记录在数据流中的事件时间的时间戳,而不是处理数据的机器时钟的时间戳。

五,有状态流处理

意味着如何处理一个事件可能取决于该事件之前所有事件数据的累积结果。有状态算子的并行实例组在存储其对应状态时通常是按照键(key)进行分片存储的。每个并行实例算子负责处理一组特定键的事件数据,并且这组键对应的状态会保存在本地。

六,通过状态快照实现的容错

通过状态快照和流重放两种方式的组合,Flink 能够提供可容错的,精确一次计算的语义。这些状态快照在执行时会获取并存储分布式 pipeline 中整体的状态,它会将数据源中消费数据的偏移量记录下来,并将整个 job graph 中算子获取到该数据(记录的偏移量对应的数据)时的状态记录并存储下来。当发生故障时,Flink 作业会恢复上次存储的状态,重置数据源从状态中记录的上次消费的偏移量开始重新进行消费处理。而且状态快照在执行时会异步获取状态并存储,并不会阻塞正在进行的数据处理逻辑。

相关推荐
华农DrLai15 小时前
Spark SQL Catalyst 优化器详解
大数据·hive·sql·flink·spark
岁岁种桃花儿16 小时前
Flink从入门到上天系列第一篇:搭建第一个Flink程序
大数据·linux·flink·数据同步
Hello.Reader1 天前
Flink ZooKeeper HA 实战原理、必配项、Kerberos、安全与稳定性调优
安全·zookeeper·flink
Hello.Reader1 天前
Flink 使用 Amazon S3 读写、Checkpoint、插件选择与性能优化
大数据·flink
Hello.Reader1 天前
Flink 对接 Google Cloud Storage(GCS)读写、Checkpoint、插件安装与生产配置指南
大数据·flink
Hello.Reader1 天前
Flink Kubernetes HA(高可用)实战原理、前置条件、配置项与数据保留机制
贪心算法·flink·kubernetes
wending-Y1 天前
记录一次排查Flink一直重启的问题
大数据·flink
Hello.Reader1 天前
Flink 对接 Azure Blob Storage / ADLS Gen2:wasb:// 与 abfs://(读写、Checkpoint、插件与认证)
flink·flask·azure
Hello.Reader1 天前
Flink 文件系统通用配置默认文件系统与连接数限制实战
vue.js·flink·npm