flink对于迟到数据的处理

Flink 对迟到数据的处理主要通过以下机制实现:

waterMark和Window机制解决了流式数据的乱序问题,对于因为延迟而顺序有误的数据,可以根据eventTime进行业务处理,对于延迟的数据Flink也有自己的解决办法,

主要的办法是给定一个允许延迟的时间,在该时间范围内仍可以接受处理延迟数据

设置允许延迟的时间是通过allowedLateness(lateness: Time)设置

保存延迟数据则是通过sideOutputLateData(outputTag: OutputTag[T])保存

获取延迟数据是通过DataStream.getSideOutput(tag: OutputTag[X])获取

1. 允许延迟(Allowed Lateness)

通过 allowedLateness 设置窗口关闭后的容忍时间。在此时间内到达的数据仍可触发窗口计算:

复制代码
windowedStream
    .allowedLateness(Duration.ofMinutes(5))
    .reduce(new MyReduceFunction());

2. 侧输出(Side Output)

超过容忍时间的数据可通过侧输出捕获:

复制代码
OutputTag<T> lateDataTag = new OutputTag<>("late-data");
WindowedStream<T> windowed = input
    .keyBy(...)
    .window(...)
    .allowedLateness(...)
    .sideOutputLateData(lateDataTag);

DataStream<T> lateStream = windowed.getSideOutput(lateDataTag);

3. 水位线(Watermark)机制

水位线标记事件时间进度,其生成策略(如 BoundedOutOfOrderness)直接影响延迟容忍度:

复制代码
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
env.getConfig().setAutoWatermarkInterval(1000);

DataStream<T> withTimestamps = input
    .assignTimestampsAndWatermarks(
        new BoundedOutOfOrdernessTimestampExtractor<T>(Duration.ofSeconds(10)) {
            @Override
            public long extractTimestamp(T element) {
                return element.getEventTime();
            }
        });

4. 窗口状态清理

窗口触发后状态默认保留至 allowedLateness 结束,需注意避免状态无限增长:

复制代码
windowedStream
    .trigger(new MyTrigger()) // 自定义触发器
    .evictor(new MyEvictor()); // 自定义清理器

处理流程示例

复制代码
1. 水位线推进至窗口结束时间
2. 窗口初次计算结果输出
3. 允许延迟期内新数据触发更新计算
4. 延迟期结束后:
   - 侧输出捕获迟到数据
   - 清除窗口状态

注意事项

  • 容忍时间过长可能导致状态存储压力
  • 侧输出数据需单独定义处理逻辑
  • 事件时间与处理时间需明确区分

通过组合水位线、允许延迟和侧输出机制,Flink 实现了对乱序数据的鲁棒性处理,保障计算结果的准确性。

相关推荐
兆子龙1 分钟前
像 React Hook 一样「自动触发」:用 Git Hook 拦住忘删的测试代码与其它翻车现场
前端·架构
兆子龙42 分钟前
用 Auto.js 实现挂机脚本:从找图点击到循环自动化
前端·架构
SuperEugene1 小时前
表单最佳实践:从 v-model 到自定义表单组件(含校验)
前端·javascript·vue.js
昨晚我输给了一辆AE861 小时前
为什么现在不推荐使用 React.FC 了?
前端·react.js·typescript
不会敲代码11 小时前
深入浅出 React 闭包陷阱:从现象到原理
前端·react.js
不会敲代码11 小时前
React性能优化:深入理解useMemo和useCallback
前端·javascript·react.js
Dilettante2581 小时前
我的 Monorepo 实践经验:从基础概念到最佳实践
前端·前端工程化
只会cv的前端攻城狮1 小时前
Elpis-Core — 融合 Koa 洋葱圈模型实现服务端引擎
前端·后端
Java小卷2 小时前
流程设计器为啥选择diagram-js
前端·低代码·工作流引擎
HelloReader2 小时前
Isolation Pattern(隔离模式)在前端与 Core 之间加一道“加密网关”,拦截与校验所有 IPC
前端