源码解析flink文件连接源TextInputFormat

背景:

kafka的文件系统数据源可以支持精准一次的一致性,本文就从源码看下如何TextInputFormat如何支持状态的精准一致性

TextInputFormat源码解析

首先flink会把输入的文件进行切分,分成多个数据块的形式,每个数据源算子任务会被分配以读取其中的数据块,但是不是所有的文件都能进行分块,判断文件是否可以进行分块的代码如下:

java 复制代码
protected boolean testForUnsplittable(FileStatus pathFile) {
    if (getInflaterInputStreamFactory(pathFile.getPath()) != null) {
        unsplittable = true;
        return true;
    }
    return false;
}

private InflaterInputStreamFactory<?> getInflaterInputStreamFactory(Path path) {
    String fileExtension = extractFileExtension(path.getName());
    if (fileExtension != null) {
        return getInflaterInputStreamFactory(fileExtension);
    } else {
        return null;
    }
}

后缀名称是.gz,.bzip2等的文件都没法切分,如果可以切分,切分的具体代码如下所示:

java 复制代码
while (samplesTaken < numSamples && fileNum < allFiles.size()) {
    // make a split for the sample and use it to read a record
    FileStatus file = allFiles.get(fileNum);
// 根据偏移量进行切分
    FileInputSplit split = new FileInputSplit(0, file.getPath(), offset, file.getLen() - offset, null);
    // we open the split, read one line, and take its length
    try {
        open(split);
        if (readLine()) {
            totalNumBytes += this.currLen + this.delimiter.length;
            samplesTaken++;
        }
    } finally {
        // close the file stream, do not release the buffers
        super.close();
    }
// 偏移量迁移
    offset += stepSize;

    // skip to the next file, if necessary
    while (fileNum < allFiles.size()
            && offset >= (file = allFiles.get(fileNum)).getLen()) {
        offset -= file.getLen();
        fileNum++;
    }
}

再来看一下TextInputFormat如何支持checkpoint操作,保存文件的偏移量的代码:

java 复制代码
@Override
public void snapshotState(StateSnapshotContext context) throws Exception {
    super.snapshotState(context);

    checkState(
            checkpointedState != null, "The operator state has not been properly initialized.");

    int subtaskIdx = getRuntimeContext().getIndexOfThisSubtask();
    // 算子列表状态
    checkpointedState.clear();
    // 获取文件的当前读取的偏移
    List<T> readerState = getReaderState();

    try {
        for (T split : readerState) {
           //保存到检查点路径中
            checkpointedState.add(split);
        }
    } catch (Exception e) {
        checkpointedState.clear();

        throw new Exception(
                "Could not add timestamped file input splits to to operator "
                        + "state backend of operator "
                        + getOperatorName()
                        + '.',
                e);
    }

    if (LOG.isDebugEnabled()) {
        LOG.debug(
                "{} (taskIdx={}) checkpointed {} splits: {}.",
                getClass().getSimpleName(),
                subtaskIdx,
                readerState.size(),
                readerState);
    }
}

从检查点中恢复状态的代码如下:

java 复制代码
public void initializeState(StateInitializationContext context) throws Exception {
    super.initializeState(context);

    checkState(checkpointedState == null, "The reader state has already been initialized.");

    // 初始化算子操作状态
    checkpointedState =
            context.getOperatorStateStore()
                    .getListState(new ListStateDescriptor<>("splits", new JavaSerializer<>()));

    int subtaskIdx = getRuntimeContext().getIndexOfThisSubtask();
    
    LOG.info(
            "Restoring state for the {} (taskIdx={}).", getClass().getSimpleName(), subtaskIdx);

    splits = splits == null ? new PriorityQueue<>() : splits;
    for (T split : checkpointedState.get()) {//从检查点状态中恢复各个切分的分块
        splits.add(split);
    }
}
相关推荐
PcVue China2 小时前
PcVue + SQL Grid : 释放数据的无限潜力
大数据·服务器·数据库·sql·科技·安全·oracle
Mephisto.java3 小时前
【大数据学习 | HBASE】hbase的读数据流程与hbase读取数据
大数据·学习·hbase
SafePloy安策7 小时前
ES信息防泄漏:策略与实践
大数据·elasticsearch·开源
学术搬运工7 小时前
【珠海科技学院主办,暨南大学协办 | IEEE出版 | EI检索稳定 】2024年健康大数据与智能医疗国际会议(ICHIH 2024)
大数据·图像处理·人工智能·科技·机器学习·自然语言处理
Matrix708 小时前
HBase理论_背景特点及数据单元及与Hive对比
大数据·数据库·hbase
B站计算机毕业设计超人9 小时前
计算机毕业设计Python+大模型农产品价格预测 ARIMA自回归模型 农产品可视化 农产品爬虫 机器学习 深度学习 大数据毕业设计 Django Flask
大数据·爬虫·python·深度学习·机器学习·课程设计·数据可视化
好记性+烂笔头10 小时前
Flink_DataStreamAPI_输出算子Sink
flink
Carl_奕然10 小时前
【大数据算法】MapReduce算法概述之:MapReduce基础模型
大数据·算法·mapreduce
Elastic 中国社区官方博客10 小时前
Elasticsearch 8.16:适用于生产的混合对话搜索和创新的向量数据量化,其性能优于乘积量化 (PQ)
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
飞翔的佩奇10 小时前
ElasticSearch:使用dsl语句同时查询出最近2小时、最近1天、最近7天、最近30天的数量
大数据·elasticsearch·搜索引擎·dsl