Flink作业骨架结构

前言

Flink 是大数据流计算引擎,开发者通过程序语言开发一个 Flink 作业,然后提交这个作业到服务端并执行,以完成对大数据流的处理。

Flink 作业有一个基本骨架,再复杂的 Flink 作业都离不开这个基本骨架,了解作业的基本骨架有助于我们更快上手 Flink 作业的开发。

骨架结构

Flink 作业的基本骨架包含三个部分:

  • 创建Flink执行环境
  • 定义数据处理逻辑
  • 提交并执行Flink作业

创建Flink执行环境

Flink 执行环境被封装成 StreamExecutionEnvironment 对象,通过该对象,我们可以给Flink作业添加数据源、添加数据处理和输出逻辑、配置Flink作业的并行度、故障重启策略等参数。

定义数据处理逻辑

Flink是大数据流计算引擎,本质上是对大数据的计算处理,那么首先要解决的问题是:数据从哪儿来?

解决这个问题,就是给Flink作业定义数据源,数据源被抽象成了 SourceFunction 接口,实现该接口重写 run 方法即可接收数据。

有了数据,接下来就是声明要对这些数据做哪些处理?对数据的处理被抽象成了 ProcessFunction 接口,实现该接口重写 processElement 方法即可处理一条条数据。常见的数据处理操作有:过滤、转换、聚合等。

数据计算以后,还需要把计算结果给保存下来,所以最后还需要一步数据汇 sink 操作,把计算结果保存到数据存储引擎,例如写入MySQL、Redis等存储引擎。

提交并执行Flink作业

到目前为止,我们只描述了Flink的数据处理逻辑,Flink作业不手动触发的前提下,是不会自动执行的。

所以最后,如果要让上述流程跑起来,还需要手动提交并触发Flink作业。开发环境下,可以直接在本地提交并执行,生产环境一般是提交到Flink集群执行。

执行Flink作业,对应的是 StreamExecutionEnvironment#execute 方法。

字数统计作业

这里以一个统计字数作业作为示例,它被称作是 Flink 版的 Hello World,虽然简单,但是很好的体现了 Flink 作业的流程。

如下代码所示,我们先是创建了Flink作业执行环境对象 StreamExecutionEnvironment,然后定义了数据源监听本地的8888端口读取文本数据。紧接着定义数据处理逻辑,先是过滤操作,只有接收到的字符串是单个英文字母时才处理,然后把单个英文字母映射为WordCount对象,用于统计次数。然后是根据英文字母分组,相同的字母会被分到同一组,最后统计所有相同字母的 count 字段,得到的结果就是字母出现的次数。最终的 sink 操作只是简单的把结果输出到控制台。

java 复制代码
public class WordCountJob {
    public static void main(String[] args) throws Exception {
        // 创建Flink执行环境
        StreamExecutionEnvironment environment = StreamExecutionEnvironment.getExecutionEnvironment();
        // 1. 定义数据源 从Socket读取数据
        environment.socketTextStream("127.0.0.1", 8888)
                // 2. 定义数据处理逻辑
                // 2.1 过滤 接收到的数据必须是英文字母
                .filter(e -> e.length() == 1 && Character.isLetter(e.codePointAt(0)))
                // 2.2 映射 单个字符映射成WordCount对象
                .map(e -> new WordCount(e.toUpperCase(), 1))
                // 2.3 分组 相同字母分为一组
                .keyBy(WordCount::getWord)
                // 2.4 分组后相同字母聚合求和
                .sum("count")
                // 3. 定义数据汇sink 这里输出到控制台
                .addSink(new SinkFunction<WordCount>() {
                    @Override
                    public void invoke(WordCount value, Context context) throws Exception {
                        System.err.println(value.word + ":" + value.count);
                    }
                });
        // 执行Flink作业
        environment.execute();
    }

    @Data
    @AllArgsConstructor
    @NoArgsConstructor
    public static class WordCount {
        public String word;
        public int count;
    }
}

Flink 作业启动时,就会去连接本地的8888端口,如果连接不上,会报错退出。所以启动作业前,需要先保证8888端口开启。所以Mac系统下先打开8888端口:

java 复制代码
nc -l 8888

然后启动 Flink 作业,此时控制台什么也没有,因为数据源没有数据,Flink也就没法处理。然后我们往 8888 端口写点东西

java 复制代码
nc -l 8888
1
a
b
c
a

控制台输出

java 复制代码
A:1
B:1
C:1
A:2

分析一下结果,第一次发出的"1",因为不是英文字母,所以会被filter算子过滤掉。发出第一个"a"时,因为符合条件,所以会被后续所有算子处理,最终到达sink算法,输出到控制台。发出第二个"a"时,因为之前已经有一个a了,所以sum算子求和结果是2。

尾巴

Flink作业的基本骨架包含三部分:创建作业执行环境、定义数据处理逻辑、提交并启动作业。执行环境主要用来对Flink作业进行一些设置,例如 故障重启策略、并行度等参数。定义数据处理逻辑是我们开发Flink作业最重要的部分,首先要定义数据源,告诉Flink数据从哪里来,然后声明要对数据做哪些处理,最终计算结果要保存到哪里等。Flink作业是懒执行的,前面的这些操作都只是对Flink作业的一个声明和描述,必须调用execute方法作业才会真正跑起来。

相关推荐
Edingbrugh.南空13 小时前
Flink ClickHouse 连接器维表源码深度解析
java·clickhouse·flink
诗旸的技术记录与分享1 天前
Flink-1.19.0源码详解-番外补充3-StreamGraph图
大数据·flink
Edingbrugh.南空1 天前
Flink MySQL CDC 环境配置与验证
mysql·adb·flink
bxlj_jcj2 天前
深入Flink核心概念:解锁大数据流处理的奥秘
大数据·flink
Edingbrugh.南空2 天前
Flink SQLServer CDC 环境配置与验证
数据库·sqlserver·flink
Edingbrugh.南空2 天前
Flink OceanBase CDC 环境配置与验证
大数据·flink·oceanbase
Edingbrugh.南空3 天前
Flink TiDB CDC 环境配置与验证
大数据·flink·tidb
Edingbrugh.南空3 天前
Flink Postgres CDC 环境配置与验证
大数据·flink
lifallen3 天前
Paimon vs. HBase:全链路开销对比
java·大数据·数据结构·数据库·算法·flink·hbase
expect7g13 天前
新时代多流Join的一个思路----Partial Update
后端·flink