【Flink-scala】DataStream编程模型总结

系列文章目录

1.【Flink-Scala】DataStream编程模型之数据源、数据转换、数据输出

2.【Flink-scala】DataStream编程模型之 窗口的划分-时间概念-窗口计算程序

3.【Flink-scala】DataStream编程模型之窗口计算-触发器-驱逐器

4.【Flink-scala】DataStream编程模型之水位线

5.【Flink-scala】DataStream编程模型之延迟数据处理

6.【Flink-scala】DataStream编程模型之状态编程

文章目录


总结

DataStream API是Flink的核心,因为Flink和其他计算框架(比如Spark、MapReduce等)相比,其最大的优势就在于强大的流计算功能。本章首先介绍了在使用DataStream接口编程中的基本操作,包括数据源、数据转换、数据输出、窗口的划分等。

对于流式数据处理,最大的特点是数据上具有时间的属性特征,Flink根据时间产生位置的不同,将时间划分为三种,分别为事件生成时间、时间接入时间和事件处理时间,本章内容对三种时间概念进行了详细介绍。

窗口计算时流式计算中非常常用的数据计算方式之一,通过按照固定时间或长度将数据流切分成不同的窗口,然后对数据进行相应的聚合计算,就可以得到一定时间范围内的统计结果。本章内容介绍了窗口的型以及窗口计算函数。

通常情况下,由于网络或者系统等外部因素的影响三种类,事件数据往往不能及时传输至Flink系统中,从而导致数据乱序到达或者延迟到达的问题。本章介绍了如何采用水位线机制解决这类问题。本章最后介绍了有状态计算的编程方法。

相关推荐
苛子14 小时前
谷云科技发布API × AI 战略是什么?
大数据·人工智能
yumgpkpm15 小时前
Cloudera CDP 7.3(国产CMP 鲲鹏版)平台与银行五大平台的技术对接方案
大数据·人工智能·hive·zookeeper·flink·kafka·cloudera
亚里仕多德15 小时前
启航-泽木鸟家居:打造未来之家
大数据·人工智能
云老大TG:@yunlaoda36015 小时前
华为云国际站代理商如何使用EDCM进行跨账号代维?
大数据·数据库·华为云
AI_567815 小时前
从“单文件存储”到“PB级集群”——HDFS如何让大数据“躺平”存储
大数据·hadoop·hdfs
潘达斯奈基~15 小时前
数仓建模1-核心框架
大数据·数据仓库
TDengine (老段)15 小时前
让数据自己说话:TDengine TDgpt 如何识破时序数据中的异常
大数据·物联网·时序数据库·iot·tdengine·涛思数据
熊猫钓鱼>_>15 小时前
Tbox使用教程与心得体验:智能体驱动我的“2025年大模型发展工作总结及企业智能办公场景应用前景“深度报告生成
大数据·人工智能·ai·llm·提示词·智能体·tbox
Francek Chen15 小时前
【博客之星2025年度总评选】逐梦2026:我的2025博客回溯与AI运营之旅
大数据·人工智能·经验分享·程序人生·csdn·博客之星
GeminiJM15 小时前
Elasticsearch Dump 失败问题排查:Store: True 导致的字段数组化问题
大数据·elasticsearch·jenkins