Flink的算子列表状态的使用

背景

算子的列表状态是平时比较常见的一种状态,本文通过官方的例子来看一下怎么使用算子列表状态

算子列表状态

算子列表状态支持应用的并行度扩缩容,如下所示:

使用方法参见官方示例,我加了几个注解:

java 复制代码
public class BufferingSink
        implements SinkFunction<Tuple2<String, Integer>>,
                   CheckpointedFunction {//要实现CheckpointedFunction接口

    private final int threshold;

   //算子操作状态对象--算子级别的
    private transient ListState<Tuple2<String, Integer>> checkpointedState;
    //本地变量,保存这个算子任务的本地变量--任务级别的 
    private List<Tuple2<String, Integer>> bufferedElements;

    public BufferingSink(int threshold) {
        this.threshold = threshold;
        this.bufferedElements = new ArrayList<>();
    }

//invoke方法中一般都是操作本地变量bufferedElements,不会直接操作算子列表状态
    @Override
    public void invoke(Tuple2<String, Integer> value, Context contex) throws Exception {
        bufferedElements.add(value);
        if (bufferedElements.size() >= threshold) {
            for (Tuple2<String, Integer> element: bufferedElements) {
                // send it to the sink
            }
            bufferedElements.clear();
        }
    }

    @Override
    public void snapshotState(FunctionSnapshotContext context) throws Exception {
        checkpointedState.clear();
        for (Tuple2<String, Integer> element : bufferedElements) {
            // 把本地变量的值设置到算子列表状态中,算子列表状态会自动会被持久化
            checkpointedState.add(element);
        }
    }

    @Override
    public void initializeState(FunctionInitializationContext context) throws Exception {
        ListStateDescriptor<Tuple2<String, Integer>> descriptor =
            new ListStateDescriptor<>(
                "buffered-elements",
                TypeInformation.of(new TypeHint<Tuple2<String, Integer>>() {}));
        // 定义算子列表状态
        checkpointedState = context.getOperatorStateStore().getListState(descriptor);

        if (context.isRestored()) {
        // 算子列表状态的值设置到本地变量中
            for (Tuple2<String, Integer> element : checkpointedState.get()) {
                bufferedElements.add(element);
            }
        }
    }
}
相关推荐
大大大大晴天17 小时前
Hudi技术内幕:深入解析Index索引机制
大数据
阿里云大数据AI技术18 小时前
Flink Forward Asia 2026 深圳启幕:Agentic Streaming for AI,开启实时智能新范式
大数据·flink
SelectDB1 天前
阶跃星辰基于 SelectDB 构建 PB 级 Agent 可观测平台
大数据·数据库·aigc
tonyabasy2 天前
Flink 实时数仓开发实战:SQL中也能做到资源精细化管理
flink
大大大大晴天3 天前
浅聊Flink实时关联计算的不适用场景
flink
大大大大晴天4 天前
深入解析 Flink Kafka Connector:原理、配置与最佳实践
flink
大大大大晴天5 天前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
SelectDB5 天前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生
WhoAmI5 天前
MapReduce框架原理解析一:InputFormat
大数据·hadoop
WhoAmI5 天前
MapReduce框架原理解析三:OutputFormat
大数据·hadoop