Flink之OperatorState

在Flink中状态主要分为三种:

  • Operator State(算子状态)
  • Keyed State(键控状态)
  • Broadcast State(广播状态)

这里简单介绍一下Operator State的使用,说到使用State就必然要使用到Flink的容错机制也就是Checkpoint.具体内容见代码注解

  • 数据源
    这里选用Socket作为Source输入,便于测试

    powershell 复制代码
    ➜  ~ nc -lk 8888
    a
    b
    c
    k
    k
    k
  • 状态算子代码

    java 复制代码
    /**
    * @Description TODO 自定义状态MapFunc
    **/
    // 状态算子必须要实现对应的算子接口和CheckpointFunction接口
    class StateMapFunc implements MapFunction<String, String>, CheckpointedFunction{
      private ListState<String> strListState;
    
      /**
       * @Param o
       * @return String
       * @Description TODO map方法的正常处理逻辑
      **/
      @Override
      public String map(String s) throws Exception {
          // 模拟Task失败
          if (s.equals("k") && RandomUtils.nextInt(0, 5) == 3) {
              throw new Exception("Task 异常");
          }
          // 将数据添加到状态存储器中
          strListState.add(s);
    
          Iterable<String> strings = strListState.get();
          StringBuilder builder = new StringBuilder();
          for (String string : strings) {
              builder.append(string);
          }
          return builder.toString();
      }
    
      /**
       * @Param functionSnapshotContext
       * @return void
       * @Description TODO 系统对状态数据做快照(持久化)会调用此方法, 用户使用此方法在持久化前对状态数据可以做一些操控
      **/
      @Override
      public void snapshotState(FunctionSnapshotContext functionSnapshotContext) throws Exception {
          System.out.println("快照生成, checkpointId: " + functionSnapshotContext.getCheckpointId());
      }
    
      /**
       * @Param functionInitializationContext
       * @return void
       * @Description TODO 算子任务在启动前会调用此方法,未用户状态数据进行初始化
      **/
      @Override
      public void initializeState(FunctionInitializationContext functionInitializationContext) throws Exception {
          // 获取算子状态存储器
          OperatorStateStore operatorStateStore = functionInitializationContext.getOperatorStateStore();
    
          /**
           * ListStateDescriptor状态描述
           * 参数1:一个自定义名称
           * 参数2:存储的数据类型
          **/
          ListStateDescriptor<String> stateDescriptor = new ListStateDescriptor<>("demo", String.class);
          /**
           * 算子状态存储器, 只提供ListSate的形式(和Java中的List不是一回事)来存储状态数据
           * getListSate方法,会在Task失败后,task自动重启时,会帮助用户加载最近一次的快照数据,如果是job重启则不会加载
          **/
          strListState = operatorStateStore.getListState(stateDescriptor);
      }
    }

    要注意代码注释中的内容,getListState只作用于Task的自动重启,如果是整个Job重启时不生效的,如果是想Job重启后从重启前的State获取数据需要在Job提交时就指定checkpoint镜像文件.

  • 业务代码

    java 复制代码
      public class FlinkOperatorState {
      public static void main(String[] args) throws Exception {
          StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
          // 设置并行度1
          env.setParallelism(1);
          // 开启Checkpoint, 8秒一个周期并开启一次性语义
          env.enableCheckpointing(8000, CheckpointingMode.EXACTLY_ONCE);
          // 指定checkpoint持久化路径
          env.getCheckpointConfig().setCheckpointStorage("file:///Users/xxx/data/testData/checkpoint");
          // 开启Task级别故障自动failover,通过fixedDelayRestart设置Task重启上限和重启间隔,这里设置的重启次数为2次,一旦Task重启次数超过这个次数,整个job也会停止
          env.setRestartStrategy(RestartStrategies.fixedDelayRestart(2, Time.seconds(5)));
          // 获取Socket数据源
          DataStreamSource<String> socketSource = env.socketTextStream("localhost", 8888);
          // 将自定义的StateOperator传入
          SingleOutputStreamOperator<String> map = socketSource.map(new StateMapFunc());
          // 打印结果
          map.print();
          env.execute("Operator State");
      }
    }

具体的代码模板和API的介绍大概就这些内容,具体实践要根据业务逻辑而定.

相关推荐
咖啡教室2 小时前
java日常开发笔记和开发问题记录
java
咖啡教室2 小时前
java练习项目记录笔记
java
鱼樱前端3 小时前
maven的基础安装和使用--mac/window版本
java·后端
RainbowSea3 小时前
6. RabbitMQ 死信队列的详细操作编写
java·消息队列·rabbitmq
RainbowSea3 小时前
5. RabbitMQ 消息队列中 Exchanges(交换机) 的详细说明
java·消息队列·rabbitmq
李少兄5 小时前
Unirest:优雅的Java HTTP客户端库
java·开发语言·http
此木|西贝5 小时前
【设计模式】原型模式
java·设计模式·原型模式
可乐加.糖5 小时前
一篇关于Netty相关的梳理总结
java·后端·网络协议·netty·信息与通信
s9123601015 小时前
rust 同时处理多个异步任务
java·数据库·rust
9号达人5 小时前
java9新特性详解与实践
java·后端·面试