【Flink学习】(六)Flink 三大时间语义 + 水位线 Watermark

本文我主要整理Flink 时间相关知识,实时计算最大难点:数据乱序,为窗口计算打下基础。

一、三大时间语义详解

1、处理时间

服务器处理数据的系统时间,最简单,无数据顺序要求

2、事件时间

数据本身自带的产生时间,实时业务生产首选

3、摄入时间

数据进入 Flink 程序的时间,极少使用

二、实时业务痛点:数据乱序

网络延迟、设备离线重连导致数据先后顺序错乱,直接影响统计结果准确性。

三、水位线 Watermark 核心作用

水位线是 Flink 内部时间时钟,用于告知 Flink 迟到数据最晚到达时间,解决乱序数据计算异常问题。

四、水位线实战编写代码

1、固定延迟水位线(企业最常用)

2、单调递增水位线

3、自定义水位线生成规则

五、迟到数据处理方案

设置允许迟到时间、侧输出流收集极端迟到数据,保证实时计算结果精准无误。

相关推荐
清平乐的技术专栏8 小时前
【Flink学习】(一)初识 Flink,大数据实时计算核心认知
大数据·flink
武子康8 小时前
Java-221 RocketMQ 消息存储核心原理:CommitLog、ConsumerQueue、IndexFile 与消息过滤机制
java·大数据·分布式·消息队列·rabbitmq·rocketmq·java-rocketmq
2601_959477918 小时前
Vatee:数字化能力升级的全面观察
大数据·人工智能
楼兰公子8 小时前
《深入理解Linux网络技术内幕》配套学习大纲 + 源码Demo + 进阶实战实例
linux·arm开发·学习
楼田莉子8 小时前
C++17新特性:结构化绑定/inline变量/if相关的变化
c++·后端·学习
赴山海bi8 小时前
DeepBI赋能:家居类亚马逊Listing优化全攻略
大数据·人工智能
qq_366032788 小时前
Claude API中转怎么选?简易api下的国内接入与兼容 OpenAI 接口实践
大数据·运维·人工智能
SAP上海工博云署8 小时前
汽配出海业务扩张难题拆解:SAP Business One 适配跨境制造管理
大数据·人工智能·云计算·制造·信息与通信·零售
AI算法沐枫9 小时前
大一学生如何入门机器学习,深度学习,学习顺序如何?
人工智能·python·深度学习·学习·线性代数·算法·机器学习