【Flink-scala】DataStream编程模型总结

系列文章目录

1.【Flink-Scala】DataStream编程模型之数据源、数据转换、数据输出

2.【Flink-scala】DataStream编程模型之 窗口的划分-时间概念-窗口计算程序

3.【Flink-scala】DataStream编程模型之窗口计算-触发器-驱逐器

4.【Flink-scala】DataStream编程模型之水位线

5.【Flink-scala】DataStream编程模型之延迟数据处理

6.【Flink-scala】DataStream编程模型之状态编程

文章目录


总结

DataStream API是Flink的核心,因为Flink和其他计算框架(比如Spark、MapReduce等)相比,其最大的优势就在于强大的流计算功能。本章首先介绍了在使用DataStream接口编程中的基本操作,包括数据源、数据转换、数据输出、窗口的划分等。

对于流式数据处理,最大的特点是数据上具有时间的属性特征,Flink根据时间产生位置的不同,将时间划分为三种,分别为事件生成时间、时间接入时间和事件处理时间,本章内容对三种时间概念进行了详细介绍。

窗口计算时流式计算中非常常用的数据计算方式之一,通过按照固定时间或长度将数据流切分成不同的窗口,然后对数据进行相应的聚合计算,就可以得到一定时间范围内的统计结果。本章内容介绍了窗口的型以及窗口计算函数。

通常情况下,由于网络或者系统等外部因素的影响三种类,事件数据往往不能及时传输至Flink系统中,从而导致数据乱序到达或者延迟到达的问题。本章介绍了如何采用水位线机制解决这类问题。本章最后介绍了有状态计算的编程方法。

相关推荐
依年南台27 分钟前
Spark缓存
大数据
进击的雷神37 分钟前
Perl语言深度考查:从文本处理到正则表达式的全面掌握
开发语言·后端·scala
zxfgdjfjfjflfllf41 分钟前
Mapreduce初使用
大数据·wpf·mapreduce
进击的雷神42 分钟前
Perl测试起步:从零到精通的完整指南
开发语言·后端·scala
Leo.yuan1 小时前
基于地图的数据可视化:解锁地理数据的真正价值
大数据·数据库·信息可视化·数据挖掘·数据分析
漂流瓶6666662 小时前
运行Spark程序-在shell中运行 --SparkConf 和 SparkContext
大数据·分布式·spark
数巨小码人2 小时前
Linux常见命令
大数据·linux·运维·服务器·elasticsearch·搜索引擎
lqlj22332 小时前
RDD案例数据清洗
大数据·分布式·spark
£菜鸟也有梦3 小时前
Kafka进阶指南:从原理到实战
大数据·kafka
hellolianhua3 小时前
wordcount在mapreduce的例子
大数据·mapreduce