一、流处理
分为有界流(bounded stream )和无界流(unbounded stream)。
通过上图 ,可以知道,
有界流:有明显的边界;而无界流,则只有开始,没有结束。
批处理是有界数据流处理的范例。在这种模式下,你可以选择在计算结果输出之前输入整个数据集,这也就意味着你可以对整个数据集的数据进行排序、统计或汇总计算后再输出结果。
流处理正相反,其涉及无界数据流。至少理论上来说,它的数据输入永远不会结束,因此程序必须持续不断地对到达的数据进行处理。
二、Flink 程序基本组成
由 source 开始、经过自定义算子转换(Transformation)成的 dataflow后,以一个或者多个 sink 结束。
三、算子之间数据传输方式
1,一对一 (直传)模式
可以保留元素的分区和顺序信息,即同一分区的数据只会进入到下游算子的同一分区。
2,重新分发模式
会更改数据所在的流分区。当你在程序中选择使用不同的 transformation ,每个算子子任务也会根据不同的 transformation 将数据发送到不同的目标子任务。
常见的数据分发模式
- keyBy()(通过散列键重新分区);
- broadcast()(广播);
- rebalance()(随机重新分发)
四、自定义时间流处理
关注事件本身发生的顺序而不是事件被传输以及处理的顺序;
记录在数据流中的事件时间的时间戳,而不是处理数据的机器时钟的时间戳。
五,有状态流处理
意味着如何处理一个事件可能取决于该事件之前所有事件数据的累积结果。有状态算子的并行实例组在存储其对应状态时通常是按照键(key)进行分片存储的。每个并行实例算子负责处理一组特定键的事件数据,并且这组键对应的状态会保存在本地。
六,通过状态快照实现的容错
通过状态快照和流重放两种方式的组合,Flink 能够提供可容错的,精确一次计算的语义。这些状态快照在执行时会获取并存储分布式 pipeline 中整体的状态,它会将数据源中消费数据的偏移量记录下来,并将整个 job graph 中算子获取到该数据(记录的偏移量对应的数据)时的状态记录并存储下来。当发生故障时,Flink 作业会恢复上次存储的状态,重置数据源从状态中记录的上次消费的偏移量开始重新进行消费处理。而且状态快照在执行时会异步获取状态并存储,并不会阻塞正在进行的数据处理逻辑。