Flink实战教程从入门到精通（基础篇）（一）Flink简介

Flink起源于一个叫作Stratosphere的项目，它是由3所地处柏林的大学和欧洲其他一些大学在2010~2014年共同进行的研究项目，由柏林理工大学的教授沃克尔·马尔科(VolkerMarkl)领衔开发。2014年4月，Stratosphere的代码被复制并捐赠给了Apache软件基金会，Flink就是在此基础上被重新设计出来的。

项目的logo是一只彩色的松鼠。

在德语中，"flink"一词表示"快速、灵巧"。 THE SOFTWARE FOUNDATION APACHE

·2014年8月，Flink第一个版本0.6正式发布，与此同时Fink的几位核心开发者创办DataArtisans公司;

·2014年12月，Flink项目完成孵化

·2015年4月，Flink发布了里程碑式的重要版本0.9.0;

·2019年1月，长期对Flink投入研发的阿里巴巴，以9000万欧元的价格收购了Data Artisans公司;

·2019年8月，阿里巴巴将内部版本Blink开源，合并入Flink1.9.0版本。

六、Flink的核心特点

1、高吞吐和低延迟

每秒处理数百万个事件，毫秒级延迟。事件可以理解为所谓的数据，该句话意思可以理解为可以每秒处理几百万条数据。

2、结果的准确性

Flink提供了事件时间（event-time） 和**处理时间（processing-time）**语义，对于乱序的事件流，事件时间语义仍然可以提供一致且准确的结果。

3、精确一次的状态一致性保证

4、可以连接到常用的储存系统

Kafka、Hive、JDBC、HDFS、Redis等

5、高可用

本身高可用 的设置，加上K8s 、YARN 和Mesos 的紧密集成，再加上从故障中快速恢复 和动态扩展任务的能力，Flink能做到以极少的停机时间7x24小时全天候运行。

七、Flink与SparkStreaming的区别

1、Spark以批处理为根本

Spark需要设置一个批次间隔 ，如果设置为3秒，相当于Spark进行积攒3秒的数据，然后去处理3秒内的数据，微处理数据。

Spark数据模型：Spark采用RDD模型，Spark Streaming 的DStream实际上也是一组组小批数据RDD集合

Spark运行时架构：Spark是批计算，将DAG划分为不同的stage，一个完成后才可以计算下一个。

2、Flink以流处理为根本

Flink流式处理数据，来一条则处理一条，没有进行积攒数据。

Flink数据模型：Flink基本数据模式是数据流，以及事件序列。

Flink运行时架构：Flink是标准的流执行模式，一个事件在一个节点处理完后可以直接发往下一个节点进行处理。

3、总结：

|-------|-----------|--------------------|
| | Flink | Spark Streaming |
| 计算模型 | 流式计算 | 微批处理 |
| 时间语义 | 事件时间、处理时间 | 处理时间 |
| 窗口 | 多、灵活 | 少、不灵活（窗口必须是批次的整数倍） |
| 状态 | 有 | 没有 |
| 流式SQL | 有 | 没有 |

八、Flink的应用场景

Flink在国内各个企业中大量使用。一些行业中的典型应用有:

1、电商和市场营销

举例:实时数据报表、I广告投放、实时推荐

2、物联网(IOT)

举例:传感器实时数据采集和显示、实时报警，交通运输业

3、物流配送和服务业

举例:订单状态实时更新、通知信息推送

4、银行和金融业

举例:实时结算和通知推送，实时检测异常行为

实时数据分析：如实时监控、日志分析。
事件驱动应用：如实时推荐、欺诈检测。
数据管道：如数据清洗、转换、聚合。
复杂事件处理：如模式匹配、规则引擎。

九、Flink的分层API

有状态流处理:通过底层API(处理函数)，对最原始数据加工处理。底层AP与DataStreaAPI相集成，可以处理复杂的计算。

DataStream API(流处理) 和DataSet API(批处理) 封装了底层处理函数，提供了通用的模块，比如转换(transformations，包括fatmap等)，连接(joins)，聚合(aggreations)，窗口(windows)操作等。注意:Flink1.12以后，DataStream API已经实现map、真正的流批一体，所以DataSet API已经过时。

Table AP是以表为中心的声明式编程，其中表可能会动态变化。Tabe API遵循关系模型:表有二维数据结构，类似于关系数据库中的表;同时API提供可比较的操作，例如select、project、join、group-by、aggregate等。我们可以在表与 DataStream/Dataset之间无缝切换，以允许程序将 Table API与 DataStream 以及 DataSet 混合使用。

SQL 这一层在语法与表达能力上与 Tahe AP类似，但是是以SOL査询表达式的形式表现程序。SOL抽象与Iable AH交互密切，同时SQL查询可以直接在TableAPI定义的表上执行。