watermark的作用

事件时间的推进

上游发过来的数据总是乱序的,有早有晚,然而有些动作是必须要明确的标记触发的,比如窗口计算。

那么,此时就需要一个水位线来推进事件时间

比如,系统最大时间-时间间隔

java 复制代码
stream.assignTimestampsAndWatermarks(
  WatermarkStrategy
    .<Event>forBoundedOutOfOrderness(Duration.ofSeconds(10))
    .withTimestampAssigner((event, ts) -> event.getEventTime())
);

表示系统允许最大乱序为 10 秒。

  • Flink 在内部生成 Watermark 的公式为:Watermark = 当前观察到的最大事件时间 - 10 秒

  • 只要比这个 Watermark 更早的事件,就被认为是"已经延迟太久"的数据,可能被丢弃或作为迟到数据处理。

多流操作的协同​

​​双流 Join 的完整性保证​​:在双流 join或 coProcessFunction中,Watermark 用于对齐两个流的事件时间。例如:

  • 流 A 的 Watermark = 10:05
  • 流 B 的 Watermark = 10:00

下游算子以 min(10:05, 10:00) = 10:00作为当前 Watermark,确保仅当两流数据均推进到 10:00后才输出匹配结果,避免数据丢失 。

​​乱序数据处理​​:通过取各输入流的最小 Watermark,确保慢速流的数据不被快速流覆盖

相关推荐
黄焖鸡能干四碗2 小时前
制造企业工业大数据平台建设方案
大数据·数据库·安全·制造
Elastic 中国社区官方博客2 小时前
EDB EPAS 通过 PostgreSQL 连接器同步数据到 Elasticsearch
大数据·数据库·人工智能·elasticsearch·搜索引擎·postgresql·全文检索
皮皮学姐分享-ppx2 小时前
中国绿色制造企业数据(绿色工厂|绿色供应链|绿色园区|绿色产品,2017-2023)
大数据·人工智能·经验分享·科技·区块链·制造
T06205142 小时前
【面板数据】上市公司颠覆性技术创新数据(2000-2023年)
大数据
档案宝档案管理2 小时前
档案管理效率低?档案管理系统如何实现从“人工管档”到“智能管档”?
大数据·数据库·人工智能·档案·档案管理
Macbethad2 小时前
WPF工业设备诊断管理程序技术方案
大数据·hadoop·分布式
慎独4133 小时前
重塑价值分配:从土地、机器到数据的生产关系革命
大数据·运维·人工智能
sensen_kiss3 小时前
INT303 Big Data Analysis 大数据分析 Pt.10 分析模型和混合模型
大数据·学习·机器学习·数据挖掘·数据分析
Thomas21433 小时前
pyspark3.5给paimon1.2的表打tag报错 spark_catalog is not a ProcedureCatalog
大数据·分布式·spark