Flink学习(二)-基础概念

一、流处理

分为有界流(bounded stream )和无界流(unbounded stream)。

通过上图 ,可以知道,

有界流:有明显的边界;而无界流,则只有开始,没有结束。

批处理是有界数据流处理的范例。在这种模式下,你可以选择在计算结果输出之前输入整个数据集,这也就意味着你可以对整个数据集的数据进行排序、统计或汇总计算后再输出结果。

流处理正相反,其涉及无界数据流。至少理论上来说,它的数据输入永远不会结束,因此程序必须持续不断地对到达的数据进行处理。

由 source 开始、经过自定义算子转换(Transformation)成的 dataflow后,以一个或者多个 sink 结束。

三、算子之间数据传输方式

1,一对一直传)模式

可以保留元素的分区和顺序信息,即同一分区的数据只会进入到下游算子的同一分区。

2,重新分发模式

会更改数据所在的流分区。当你在程序中选择使用不同的 transformation ,每个算子子任务也会根据不同的 transformation 将数据发送到不同的目标子任务。

常见的数据分发模式

  • keyBy()(通过散列键重新分区);
  • broadcast()(广播);
  • rebalance()(随机重新分发)

四、自定义时间流处理

关注事件本身发生的顺序而不是事件被传输以及处理的顺序;

记录在数据流中的事件时间的时间戳,而不是处理数据的机器时钟的时间戳。

五,有状态流处理

意味着如何处理一个事件可能取决于该事件之前所有事件数据的累积结果。有状态算子的并行实例组在存储其对应状态时通常是按照键(key)进行分片存储的。每个并行实例算子负责处理一组特定键的事件数据,并且这组键对应的状态会保存在本地。

六,通过状态快照实现的容错

通过状态快照和流重放两种方式的组合,Flink 能够提供可容错的,精确一次计算的语义。这些状态快照在执行时会获取并存储分布式 pipeline 中整体的状态,它会将数据源中消费数据的偏移量记录下来,并将整个 job graph 中算子获取到该数据(记录的偏移量对应的数据)时的状态记录并存储下来。当发生故障时,Flink 作业会恢复上次存储的状态,重置数据源从状态中记录的上次消费的偏移量开始重新进行消费处理。而且状态快照在执行时会异步获取状态并存储,并不会阻塞正在进行的数据处理逻辑。

相关推荐
Bug快跑-18 小时前
面向高并发场景的多语言异构系统架构演进与性能优化策略深度解析实践分享全过程方法论探索
flink
Hello.Reader1 天前
在 Flink Standalone 集群上运行 Flink CDC从下载到跑起一个 MySQL→Doris 同步任务
大数据·mysql·flink
A尘埃1 天前
Flink实时数据处理
大数据·flink·实时数据处理
expect7g2 天前
Paimon源码解读 -- PartialUpdateMerge
大数据·后端·flink
yumgpkpm2 天前
腾讯云TBDS与CDH迁移常见问题有哪些?建议由CDH迁移到CMP 7.13 平台(类Cloudera CDP,如华为鲲鹏 ARM 版)
hive·hadoop·zookeeper·flink·spark·kafka·hbase
Hello.Reader2 天前
使用 Flink CDC 搭建跨库 Streaming ETLMySQL + Postgres → Elasticsearch 实战
大数据·elasticsearch·flink
❀͜͡傀儡师3 天前
docker 部署Flink和传统部署
docker·容器·flink
Linux Huang3 天前
【Dinky】IDEA运行出现HistoryServer异常
java·hadoop·flink·intellij idea
渣渣盟3 天前
Flink分布式文件Sink实战解析
分布式·flink·scala·1024程序员节
c***72744 天前
SpringBoot集成Flink-CDC,实现对数据库数据的监听
数据库·spring boot·flink