Flink学习(二)-基础概念

一、流处理

分为有界流(bounded stream )和无界流(unbounded stream)。

通过上图 ,可以知道,

有界流:有明显的边界;而无界流,则只有开始,没有结束。

批处理是有界数据流处理的范例。在这种模式下,你可以选择在计算结果输出之前输入整个数据集,这也就意味着你可以对整个数据集的数据进行排序、统计或汇总计算后再输出结果。

流处理正相反,其涉及无界数据流。至少理论上来说,它的数据输入永远不会结束,因此程序必须持续不断地对到达的数据进行处理。

由 source 开始、经过自定义算子转换(Transformation)成的 dataflow后,以一个或者多个 sink 结束。

三、算子之间数据传输方式

1,一对一直传)模式

可以保留元素的分区和顺序信息,即同一分区的数据只会进入到下游算子的同一分区。

2,重新分发模式

会更改数据所在的流分区。当你在程序中选择使用不同的 transformation ,每个算子子任务也会根据不同的 transformation 将数据发送到不同的目标子任务。

常见的数据分发模式

  • keyBy()(通过散列键重新分区);
  • broadcast()(广播);
  • rebalance()(随机重新分发)

四、自定义时间流处理

关注事件本身发生的顺序而不是事件被传输以及处理的顺序;

记录在数据流中的事件时间的时间戳,而不是处理数据的机器时钟的时间戳。

五,有状态流处理

意味着如何处理一个事件可能取决于该事件之前所有事件数据的累积结果。有状态算子的并行实例组在存储其对应状态时通常是按照键(key)进行分片存储的。每个并行实例算子负责处理一组特定键的事件数据,并且这组键对应的状态会保存在本地。

六,通过状态快照实现的容错

通过状态快照和流重放两种方式的组合,Flink 能够提供可容错的,精确一次计算的语义。这些状态快照在执行时会获取并存储分布式 pipeline 中整体的状态,它会将数据源中消费数据的偏移量记录下来,并将整个 job graph 中算子获取到该数据(记录的偏移量对应的数据)时的状态记录并存储下来。当发生故障时,Flink 作业会恢复上次存储的状态,重置数据源从状态中记录的上次消费的偏移量开始重新进行消费处理。而且状态快照在执行时会异步获取状态并存储,并不会阻塞正在进行的数据处理逻辑。

相关推荐
驾数者2 小时前
Flink SQL实时数仓实战:基于Flink SQL的完整项目案例
sql·flink·linq
代码匠心19 小时前
从零开始学Flink:Flink SQL 极简入门
大数据·flink·flink sql·大数据处理
Apache Flink1 天前
Flink 实时计算 x SLS 存储下推:阿里云 OpenAPI 网关监控平台实践
大数据·阿里云·flink·云计算
yumgpkpm1 天前
华为昇腾300T A2训练、微调Qwen过程,带保姆式命令,麒麟操作系统+鲲鹏CPU
hive·hadoop·华为·flink·spark·kafka·hbase
迎仔2 天前
10-流处理引擎Flink介绍:大数据世界的“实时监控中心”
大数据·flink
ApacheSeaTunnel3 天前
Apache SeaTunnel Zeta、Flink、Spark 怎么选?底层原理 + 实战对比一次讲透
大数据·flink·spark·开源·数据集成·seatunnel·数据同步
代码匠心3 天前
从零开始学Flink:状态管理与容错机制
java·大数据·后端·flink·大数据处理
海南java第二人3 天前
Flink动态字符串处理框架:构建灵活可配置的实时数据管道
java·flink