【Flink学习】(六)Flink 三大时间语义 + 水位线 Watermark

本文我主要整理Flink 时间相关知识,实时计算最大难点:数据乱序,为窗口计算打下基础。

一、三大时间语义详解

1、处理时间

服务器处理数据的系统时间,最简单,无数据顺序要求

2、事件时间

数据本身自带的产生时间,实时业务生产首选

3、摄入时间

数据进入 Flink 程序的时间,极少使用

二、实时业务痛点:数据乱序

网络延迟、设备离线重连导致数据先后顺序错乱,直接影响统计结果准确性。

三、水位线 Watermark 核心作用

水位线是 Flink 内部时间时钟,用于告知 Flink 迟到数据最晚到达时间,解决乱序数据计算异常问题。

四、水位线实战编写代码

1、固定延迟水位线(企业最常用)

2、单调递增水位线

3、自定义水位线生成规则

五、迟到数据处理方案

设置允许迟到时间、侧输出流收集极端迟到数据,保证实时计算结果精准无误。

相关推荐
Databend35 分钟前
2KB histogram 背后:Databend 如何低成本追踪长尾延迟
大数据·数据分析·agent
大大大大晴天2 小时前
Flink JDBC Connector 深度解析:从原理到最佳实践
flink
Databend2 小时前
从湖仓升级为 Agent 时代的数据控制面,Snowflake 和 Databricks 有哪些布局
大数据·数据库·agent
阿里云大数据AI技术1 天前
StarRocks x Fluss x Paimon湖流一体方案:构建秒级响应、湖流一体的实时数据引擎
大数据·人工智能
Databend1 天前
Agent 轨迹分析与归因的数据工程实践
大数据·数据库·agent
喵个咪1 天前
Go Wind UBA 拆解系列 - 架构总览:三服务、数据流与契约优先
大数据·后端·go
喵个咪1 天前
Go Wind UBA 拆解系列 - 多租户与安全:两套隔离机制的边界
大数据·后端·go
喵个咪1 天前
Go Wind UBA 拆解系列 - OLAP 与 SQL 硬核:25 个分析模型怎么落地
大数据·后端·go
喵个咪1 天前
Go Wind UBA 拆解系列 - SDK 与采集层:从浏览器到 Kafka
大数据·后端·go
一条鱼丶1 天前
深入理解 Flink Watermark——流数据处理中的乱序问题解决方案
flink