Flink之Watermark策略代码模板

方式 作用
WatermarkStrategy.noWatermarks() 不生成watermark
WatermarkStrategy.forMonotonousTimestamps() 紧跟最大事件时间watermark生成策略
WatermarkStrategy.forBoundedOutOfOrderness() 允许乱序watermark生成策略
WatermarkStrategy.forGenerator() 自定义watermark生成策略
  • noWatermarks

    java 复制代码
    public class FlinkWaterMark throws Exception {
      public static void main(String[] args) throws Exception {
          StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
          // 获取数据源
          DataStreamSource<String> socketSource = env.socketTextStream("localhost", 8888);
          // 构造watermark生成策略,选择不生成watermark
          WatermarkStrategy<UserEvent2> watermark = WatermarkStrategy.noWatermarks();
          // 将构造完成的watermark分配给数据流
          SingleOutputStreamOperator<UserEvent2> source = socketSource.assignTimestampsAndWatermarks(watermark);
          // ...
          env.execute();
      }
    }

    关于noWaterMarks()的使用没有太多内容.

  • forMonotonousTimestamps

    java 复制代码
    public class FlinkWaterMark throws Exception {
      public static void main(String[] args) throws Exception {
          StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
          // 获取数据源
          DataStreamSource<String> socketSource = env.socketTextStream("localhost", 8888);
          // 构造watermark, 使用紧跟最大事件时间策略
          WatermarkStrategy<String> watermark = WatermarkStrategy.<String>forMonotonousTimestamps()
                  // 抽取时间时间, 根据数据中实际情况选择
                  .withTimestampAssigner(new SerializableTimestampAssigner<String>() {
                      @Override
                      public long extractTimestamp(String element, long recordTimestamp) {
                          /**
                           * 这里是样例代码,实际情况根据具体业务具体数据特性抽取对应的时间
                           **/
                          String time = element.split(",")[0];
                          long timestamp = Long.parseLong(time);
                          return timestamp;
                      }
                  });
          // 将构造完成的watermark分配给数据流
          SingleOutputStreamOperator<UserEvent2> source = socketSource.assignTimestampsAndWatermarks(watermark);
          // ...
          env.execute();
      }
    }

    对于forMonotonousTimestamps()可说内容并不多,如果选择了forMonotonousTimestamps这种方式就必须保证事件时间严格有序,如果出现乱序的情况可能存在大量数据丢失的问题.
    通过源码内容可以看到forMonotonousTimestamps底层也是使用的forBoundedOutOfOrderness方式,只不过将容错时间设置为了0,源码如下:

    java 复制代码
    // 首先看这里,继承的BoundedOutOfOrdernessWatermarks
    public class AscendingTimestampsWatermarks<T> extends BoundedOutOfOrdernessWatermarks<T> {
    
      /** Creates a new watermark generator with for ascending timestamps. */
      public AscendingTimestampsWatermarks() {
          super(Duration.ofMillis(0)); // 这里将容错时间设置为了0
      }
    }
  • forBoundedOutOfOrderness

    java 复制代码
    public class FlinkWaterMark throws Exception {
      public static void main(String[] args) throws Exception {
          StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
          // 获取数据源
          DataStreamSource<String> socketSource = env.socketTextStream("localhost", 8888);
          // 构造watermark, 使用允许水位线乱序策略,并设置最大容错时间为2s
          WatermarkStrategy<String> watermark = WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofMillis(2000))
                  // 抽取时间时间, 根据数据中实际情况选择
                  .withTimestampAssigner(new SerializableTimestampAssigner<String>() {
                      @Override
                      public long extractTimestamp(String element, long recordTimestamp) {
                          /**
                           * 这里是样例代码,实际情况根据具体业务具体数据特性抽取对应的时间
                           **/
                          String time = element.split(",")[0];
                          long timestamp = Long.parseLong(time);
                          return timestamp;
                      }
                  });
          // 将构造完成的watermark分配给数据流
          SingleOutputStreamOperator<UserEvent2> source = socketSource.assignTimestampsAndWatermarks(watermark);
          // ...
          env.execute();
      }
    }

    对于允许乱序策略前面文章有介绍过其原理,比如代码中设置容错时间为2S,那么前后的数据差最大只能是2S,如果差值大于2S,后来的这条数据就会被抛弃.

相关推荐
weixin_436182429 分钟前
PLC 与 DCS 国产化报告获取:工控产业情报查找指南
大数据·人工智能·国产plc
金智维科技官方22 分钟前
制造业如何用Ki-AgentS智能体平台实现设备巡检自动化?
大数据·运维·人工智能
志栋智能2 小时前
告别高昂投入:超自动化IT运维的轻量化实践
大数据·运维·网络·人工智能·自动化
腾视科技TENSORTEC2 小时前
腾视科技TS-SG-SM7系列AI算力模组:32TOPS算力引擎,开启边缘智能新纪元
大数据·人工智能·科技·ai·ai算力模组·ai模组·ainas
大黄说说3 小时前
微信小程序制作平台有哪些?
大数据
黎阳之光3 小时前
AI数智筑防线 绿色科技启新篇——黎阳之光硬核技术赋能生态安全双升级
大数据·人工智能·算法·安全·数字孪生
九硕智慧建筑一体化厂家3 小时前
碳综合管控系统是什么?企业全链路能碳管理的核心载体
大数据
无心水3 小时前
时间处理工程落地指南:数据库/日志/API/定时任务
java·大数据·数据库·日志·分布式架构·utc·gmt
紧固视界3 小时前
不锈钢标准件有哪些?种类与用途详解_6月上海紧固件展
大数据·物联网·上海紧固件展·紧固件展·上海紧固件专业展
ApacheSeaTunnel4 小时前
从 Apache SeaTunnel 走向 ASF Member:一位开发者的长期主义样本
大数据·开源·数据集成·seatunnel·数据同步