Flink API 解析 Flink Job 依赖的checkpoint 路径

引言

之前写一篇 Python 脚本解析 Flink _metadata 中依赖的 checkpoint 路径文章 Python解析 Flink Job 依赖的checkpoint 路径,代码比较暴力,直接按照 checkpoint 路径前缀判断,最近发现网上有通过 Flink API 解析 Flink Checkpoint 元数据代码的例子,参考了网上代码,并调试运行成功。

实现代码
java 复制代码
import org.apache.flink.core.fs.Path;
import org.apache.flink.runtime.checkpoint.Checkpoints;
import org.apache.flink.runtime.checkpoint.OperatorState;
import org.apache.flink.runtime.checkpoint.OperatorSubtaskState;
import org.apache.flink.runtime.checkpoint.metadata.CheckpointMetadata;
import org.apache.flink.runtime.state.*;
import org.apache.flink.runtime.state.filesystem.FileStateHandle;

import java.io.*;
import java.util.HashSet;
import java.util.Set;

/*
* @author: david.zhou
* @Flink Version: 1.14.4
* @Date: 2025/2/24 11:25
* @Description: Flink API 解析 Checkpoint 路径
* */

public class CheckpointMetadataParser {


    private static Set<String> ckPath = new HashSet<>();


    public static void main(String[] args) throws IOException {


        //  读取元数据文件
        File f=new File("/tmp/_metadata");
        FileInputStream fis=new FileInputStream(f);
        BufferedInputStream bis = new BufferedInputStream(fis);
        DataInputStream dis = new DataInputStream(bis);


        // 通过 Flink 的 Checkpoints 类解析元数据文件
        CheckpointMetadata savepoint = Checkpoints.loadCheckpointMetadata(dis,
                CheckpointMetadataParser.class.getClassLoader(), f.getAbsolutePath());
        // 打印当前的 CheckpointId
        System.out.println("CheckpointId:" + savepoint.getCheckpointId());

        // 遍历 OperatorState,这里的每个 OperatorState 对应一个 Flink 任务的 Operator 算子
        // 不要与 O
        // peratorState  和 KeyedState 混淆,不是一个层级的概念
        for(OperatorState operatorState :savepoint.getOperatorStates()) {
            //System.out.println(operatorState);
            // 当前算子的状态大小为 0 ,表示算子不带状态,直接退出
            if(operatorState.getStateSize() == 0){
                continue;
            }

            // 遍历当前算子的所有 subtask
            for(OperatorSubtaskState operatorSubtaskState: operatorState.getStates()) {
                // 解析 operatorSubtaskState 的 ManagedKeyedState
                parseManagedKeyedState(operatorSubtaskState);
                // 解析 operatorSubtaskState 的 ManagedOperatorState
                parseManagedOperatorState(operatorSubtaskState);
            }
        }

        for(String path: ckPath) {
            System.out.println("sstable 文件对应的 hdfs 位置:" + path);
        }
    }


    /**
     * 解析 operatorSubtaskState 的 ManagedKeyedState
     * @param operatorSubtaskState operatorSubtaskState
     */
    private static void parseManagedKeyedState(OperatorSubtaskState operatorSubtaskState) {
        // 遍历当前 subtask 的 KeyedState
        for(KeyedStateHandle keyedStateHandle:operatorSubtaskState.getManagedKeyedState()) {
            // 处理增量 Checkpoint
            if(keyedStateHandle instanceof IncrementalRemoteKeyedStateHandle) {
                IncrementalRemoteKeyedStateHandle incrementalStateHandle =
                        (IncrementalRemoteKeyedStateHandle) keyedStateHandle;

                // 获取 RocksDB 的 sharedState
                for (StateHandleID stateHandleID : incrementalStateHandle.getSharedStateHandleIDs()) {
                    StreamStateHandle stateHandle = incrementalStateHandle.getSharedState().get(stateHandleID);
                    //System.out.println("sstable 文件名:" + stateHandleID);
                    if (stateHandle instanceof FileStateHandle) {
                        Path filePath = ((FileStateHandle) stateHandle).getFilePath();
                        //System.out.println("filePath = " + filePath);
                        String ckSubPath = filePath.getPath().substring(0, filePath.getPath().indexOf("/shared"));
                        ckPath.add(ckSubPath);
                    }
                }
            }
        }
    }



    /**
     * 解析 operatorSubtaskState 的 ManagedOperatorState
     * @param operatorSubtaskState operatorSubtaskState
     */
    private static void parseManagedOperatorState(OperatorSubtaskState operatorSubtaskState) {
        // 遍历当前 subtask 的 OperatorState
        for(OperatorStateHandle operatorStateHandle:operatorSubtaskState.getManagedOperatorState()) {
            StreamStateHandle delegateStateHandle = operatorStateHandle.getDelegateStateHandle();
            if(delegateStateHandle instanceof FileStateHandle) {
                Path filePath = ((FileStateHandle) delegateStateHandle).getFilePath();
                //System.out.println("filePath: " + filePath.getPath());
            }
        }
    }


}
结果对比

对比了之前 Python 脚本demo,发现有结果不太一样,初步看 Python 中暴力解析部分元数据可能无效的。后续持续观察中,看看差异点。

相关推荐
思通数科AI全行业智能NLP系统2 小时前
AI视频技术赋能幼儿园安全——教师离岗报警系统的智慧守护
大数据·人工智能·安全·目标检测·目标跟踪·自然语言处理·ocr
程序员沉梦听雨4 小时前
【Elasticsearch】入门篇
大数据·elasticsearch·搜索引擎
Gadus_4 小时前
Elasticsearch性能优化实践
大数据·elasticsearch·搜索引擎·性能优化
riveting5 小时前
SD2351核心板:重构AI视觉产业价值链的“超级节点”
大数据·linux·图像处理·人工智能·重构·智能硬件
欧先生^_^6 小时前
Spark 的一些典型应用场景及具体示例
大数据·分布式·spark
八股文领域大手子7 小时前
如何给GitHub项目提PR(踩坑记录
大数据·elasticsearch·github
爱吃龙利鱼7 小时前
elk中kibana一直处于可用和降级之间且es群集状态并没有问题的解决方法
大数据·elk·elasticsearch
腾讯云大数据7 小时前
腾讯云ES一站式RAG方案获信通院“开源大模型+软件创新应用”精选案例奖
大数据·elasticsearch·开源·云计算·腾讯云
苍煜8 小时前
Elasticsearch(ES)中的脚本(Script)
大数据·elasticsearch·搜索引擎
Hello kele8 小时前
解构与重构:“整体部分”视角下的软件开发思维范式
大数据·经验分享·程序员·重构·项目管理·人月神话·沟通困局