【Flink-scala】DataStream编程模型总结

Ekine2024-12-18 13:53

系列文章目录

DataStream API是Flink的核心，因为Flink和其他计算框架（比如Spark、MapReduce等）相比，其最大的优势就在于强大的流计算功能。本章首先介绍了在使用DataStream接口编程中的基本操作，包括数据源、数据转换、数据输出、窗口的划分等。

对于流式数据处理，最大的特点是数据上具有时间的属性特征，Flink根据时间产生位置的不同，将时间划分为三种，分别为事件生成时间、时间接入时间和事件处理时间，本章内容对三种时间概念进行了详细介绍。

窗口计算时流式计算中非常常用的数据计算方式之一，通过按照固定时间或长度将数据流切分成不同的窗口，然后对数据进行相应的聚合计算，就可以得到一定时间范围内的统计结果。本章内容介绍了窗口的型以及窗口计算函数。

通常情况下，由于网络或者系统等外部因素的影响三种类，事件数据往往不能及时传输至Flink系统中，从而导致数据乱序到达或者延迟到达的问题。本章介绍了如何采用水位线机制解决这类问题。本章最后介绍了有状态计算的编程方法。