Spark checkpoint保存与读取

文章内部分内容引用了下面相关的博客,如有侵权请联系我进行删除,谢谢 www.cnblogs.com/superhedant...

zhuanlan.zhihu.com/p/354769480

zhuanlan.zhihu.com/p/638648224

developer.aliyun.com/article/128...

所谓的检查点(checkpoint)其实就是通过将 RDD 中间结果写入磁盘由于血缘依赖过长会造成容错成本过高,这样就不如在中间阶段做检查点容错,如果检查点之后有节点出现问题, 可以从检查点开始重做血缘,减少了开销。保障了数据的高可用以及容错。

有两种类型的checkpoint:

  • reliable,spark core中将实际的中间的RDD数据保存到可靠的分布式文件系统的checkpoint
  • local,spark streaming或者GraphX,截断RDD血缘关系的checkpoint

checkpoint与cache/persisit的区别

cache/persisit把 RDD 计算出来然后放在内存或者磁盘中,由exector的bloclManager维护, RDD 的依赖关系仍然保留, 不会丢掉, 当某个点某个 executor 宕了, 上面cache 的RDD就会丢掉, 需要通过依赖链重新计算出来。

checkpoint 是把 RDD 保存在 HDFS中, 是多副本可靠存储,依赖关系被丢掉了, 是通过复制实现的高容错。checkpoint就是针对整个RDD计算链条中特别需要数据持久化的环节,其高可用也是利用了分布式文件系统的优势。

spark checkpoint的使用

java 复制代码
// demo
SparkConf sparkAppConf = new SparkConf().setMaster("local[2]").setAppName("sparkRddDemo");  
JavaSparkContext sparkContext = new JavaSparkContext(sparkAppConf);  
sparkContext.setCheckpointDir("D:\\project\\sparkDemo\\checkpoint_dir");  
  
List<String> values = Arrays.asList("hello", "java", "hello", "spark");  
  
JavaRDD<String> rdd = sparkContext.parallelize(values);  
// 缓存中内存中
rdd.cache();  // cache底层调用了persist传入了MEMORY_ONLY  
// 缓存到内存及磁盘中,内存溢出部分写入磁盘
rdd.persist(StorageLevel.MEMORY_AND_DISK());  
rdd.checkpoint();  // 使用需要设置sparkContext的setCheckpointDir配置,传入一个目录路径  
  
sparkContext.stop();

建议对checkpoint的RDD使用cache缓存,这样checkpoint的job只需从cache缓存中读取数据即可,否则需要再从头计算一次RDD。

关于在一个spark程序中多个RDD进行checkpoint的问题

关于这个问题,我一开始并没有明确的答案,按照我的理解,应该是一个rdd调用一次checkpoint就会保存一次。 为此,我写了个简单的demo进行测试:

java 复制代码
package src.main.rdd;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.storage.StorageLevel;

import java.util.Arrays;
import java.util.List;


public class rddAppDemo_checkpoint {
    public static void main(String[] args) {

        String checkpointPath = "/home/saberbin/logs/checkpoints";

        SparkConf sparkAppConf = new SparkConf().setMaster("local[2]").setAppName("sparkRddDemo");
        JavaSparkContext sparkContext = new JavaSparkContext(sparkAppConf);
        sparkContext.setCheckpointDir(checkpointPath);

        JavaRDD<String> textFile = sparkContext.textFile("/home/saberbin/logs/QswaS.txt");

        JavaRDD<List<String>> mapRDD = textFile.map(new Function<String, List<String>>() {
            @Override
            public List<String> call(String s) throws Exception {
                return Arrays.asList(s.split(","));
            }
        });

        JavaRDD<String> rdd = mapRDD.map(new Function<List<String>, String>() {
            @Override
            public String call(List<String> strings) throws Exception {
                return strings.get(0);
            }
        });

        rdd.foreach(new VoidFunction<String>() {
            @Override
            public void call(String s) throws Exception {
                System.out.println(s);
            }
        });

        sparkContext.stop();

    }

}

这里一共使用了3个rdd

textFile
mapRDD
rdd

分别保存3个rdd的checkpoint

java 复制代码
package src.main.rdd;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.storage.StorageLevel;

import java.util.Arrays;
import java.util.List;


public class rddAppDemo_checkpoint {
    public static void main(String[] args) {

        String checkpointPath = "/home/saberbin/logs/checkpoints";

        SparkConf sparkAppConf = new SparkConf().setMaster("local[2]").setAppName("sparkRddDemo");
        JavaSparkContext sparkContext = new JavaSparkContext(sparkAppConf);
        sparkContext.setCheckpointDir(checkpointPath);

        JavaRDD<String> textFile = sparkContext.textFile("/home/saberbin/logs/QswaS.txt");

        JavaRDD<String> textFile2 = saveCheckpoint(textFile);

        JavaRDD<List<String>> mapRDD = textFile2.map(new Function<String, List<String>>() {
            @Override
            public List<String> call(String s) throws Exception {
                return Arrays.asList(s.split(","));
            }
        });

        JavaRDD<String> rdd = mapRDD.map(new Function<List<String>, String>() {
            @Override
            public String call(List<String> strings) throws Exception {
                return strings.get(0);
            }
        });

        rdd.foreach(new VoidFunction<String>() {
            @Override
            public void call(String s) throws Exception {
                System.out.println(s);
            }
        });

        sparkContext.stop();

    }

    public static <T> JavaRDD saveCheckpoint(JavaRDD<T> rdd){
        rdd.cache();
        rdd.checkpoint();
        return rdd;
    }
}

执行完成之后查看checkpoint目录

然后我们修改一下保存第二个rdd

java 复制代码
package src.main.rdd;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.storage.StorageLevel;

import java.util.Arrays;
import java.util.List;


public class rddAppDemo_checkpoint {
    public static void main(String[] args) {

        String checkpointPath = "/home/saberbin/logs/checkpoints";

        SparkConf sparkAppConf = new SparkConf().setMaster("local[2]").setAppName("sparkRddDemo");
        JavaSparkContext sparkContext = new JavaSparkContext(sparkAppConf);
        sparkContext.setCheckpointDir(checkpointPath);

        JavaRDD<String> textFile = sparkContext.textFile("/home/saberbin/logs/QswaS.txt");

        JavaRDD<List<String>> mapRDD = textFile.map(new Function<String, List<String>>() {
            @Override
            public List<String> call(String s) throws Exception {
                return Arrays.asList(s.split(","));
            }
        });

        JavaRDD<List<String>> mapRDD2 = saveCheckpoint(mapRDD);

        JavaRDD<String> rdd = mapRDD2.map(new Function<List<String>, String>() {
            @Override
            public String call(List<String> strings) throws Exception {
                return strings.get(0);
            }
        });

        rdd.foreach(new VoidFunction<String>() {
            @Override
            public void call(String s) throws Exception {
                System.out.println(s);
            }
        });

        sparkContext.stop();

    }

    public static <T> JavaRDD saveCheckpoint(JavaRDD<T> rdd){
        rdd.cache();
        rdd.checkpoint();
        return rdd;
    }
}

然后我们修改下保存第三个rdd

java 复制代码
package src.main.rdd;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.storage.StorageLevel;

import java.util.Arrays;
import java.util.List;


public class rddAppDemo_checkpoint {
    public static void main(String[] args) {

        String checkpointPath = "/home/saberbin/logs/checkpoints";

        SparkConf sparkAppConf = new SparkConf().setMaster("local[2]").setAppName("sparkRddDemo");
        JavaSparkContext sparkContext = new JavaSparkContext(sparkAppConf);
        sparkContext.setCheckpointDir(checkpointPath);

        JavaRDD<String> textFile = sparkContext.textFile("/home/saberbin/logs/QswaS.txt");

        JavaRDD<List<String>> mapRDD = textFile.map(new Function<String, List<String>>() {
            @Override
            public List<String> call(String s) throws Exception {
                return Arrays.asList(s.split(","));
            }
        });

        JavaRDD<String> rdd = mapRDD.map(new Function<List<String>, String>() {
            @Override
            public String call(List<String> strings) throws Exception {
                return strings.get(0);
            }
        });

        saveCheckpoint(rdd);

        rdd.foreach(new VoidFunction<String>() {
            @Override
            public void call(String s) throws Exception {
                System.out.println(s);
            }
        });

        sparkContext.stop();

    }

    public static <T> JavaRDD saveCheckpoint(JavaRDD<T> rdd){
        rdd.cache();
        rdd.checkpoint();
        return rdd;
    }
}

然后我们修改一下保存所有的rdd

java 复制代码
package src.main.rdd;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.storage.StorageLevel;

import java.util.Arrays;
import java.util.List;


public class rddAppDemo_checkpoint {
    public static void main(String[] args) {

        String checkpointPath = "/home/saberbin/logs/checkpoints";

        SparkConf sparkAppConf = new SparkConf().setMaster("local[2]").setAppName("sparkRddDemo");
        JavaSparkContext sparkContext = new JavaSparkContext(sparkAppConf);
        sparkContext.setCheckpointDir(checkpointPath);

        JavaRDD<String> textFile = sparkContext.textFile("/home/saberbin/logs/QswaS.txt");
        
        saveCheckpoint(textFile);

        JavaRDD<List<String>> mapRDD = textFile.map(new Function<String, List<String>>() {
            @Override
            public List<String> call(String s) throws Exception {
                return Arrays.asList(s.split(","));
            }
        });

        saveCheckpoint(mapRDD);
        
        JavaRDD<String> rdd = mapRDD.map(new Function<List<String>, String>() {
            @Override
            public String call(List<String> strings) throws Exception {
                return strings.get(0);
            }
        });

        saveCheckpoint(rdd);

        rdd.foreach(new VoidFunction<String>() {
            @Override
            public void call(String s) throws Exception {
                System.out.println(s);
            }
        });

        sparkContext.stop();

    }

    public static <T> JavaRDD saveCheckpoint(JavaRDD<T> rdd){
        rdd.cache();
        rdd.checkpoint();
        return rdd;
    }
}

结论

从上述的实验可以得出以下结论:

  • 一个spark工程中如果存在多个rdd都调用了checkpoint方法,那么则会只有一个rdd保存了
  • rdd的checkpoint保存的时候,会在配置的checkpoint目录下新建一个目录保存当前执行的checkpoint,并且会根据当前rdd的序号创建一个子目录保存当前rdd的数据,例如如果是保存第一个rdd则会创建名为rdd-1的目录保存当前rdd的数据

对于为什么只会保存一个rdd的情况,询问了讯飞火星AI,得到的回答如下:

尽管checkpoint提供了容错的能力,但是它也会占用额外的存储资源和计算资源。
因此,通常不会对所有的RDD都执行checkpoint操作,而是选择性地对关键的RDD进行checkpoint,以平衡资源使用和容错需求。

具体可能需要查看下源码了,感兴趣的小伙伴可以去查看下。

spark读取checkpoint

可以通过sparkContext.checkpointFile方法读取checkpoint文件,该方法需要传入一个路径,该路径必须到对应的rdd数据目录,即下图箭头所指的目录层级

java 复制代码
package src.main.rdd;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;

import java.util.Arrays;
import java.util.List;


public class rddAppDemo_checkpoint2 {
    public static void main(String[] args) {
        SparkConf sparkAppConf = new SparkConf().setMaster("local[2]").setAppName("sparkRddDemo");
        JavaSparkContext sparkContext = new JavaSparkContext(sparkAppConf);
        sparkContext.setCheckpointDir("/home/saberbin/logs/checkpoints");


        JavaRDD<Object> rdd = sparkContext.checkpointFile("/home/saberbin/logs/checkpoints/09a9acfc-e2d2-4e1d-a18a-558c84220f6c/rdd-3");

        rdd.foreach(new VoidFunction<Object>() {
            @Override
            public void call(Object strings) throws Exception {
                System.out.println(strings);
            }
        });

        sparkContext.stop();

    }
}

如果可以确定当前读取的rdd的泛型,则可以直接添加具体的泛型

java 复制代码
JavaRDD<String> rdd = sparkContext.checkpointFile("/home/saberbin/logs/checkpoints/09a9acfc-e2d2-4e1d-a18a-558c84220f6c/rdd-3");

rdd.foreach(new VoidFunction<String>() {
    @Override
    public void call(String strings) throws Exception {
        System.out.println(strings);
    }
});
相关推荐
lzhlizihang12 小时前
【spark的集群模式搭建】Standalone集群模式的搭建(简单明了的安装教程)
spark·standalone模式·spark集群搭建
W Y1 天前
【架构-37】Spark和Flink
架构·flink·spark
数新网络1 天前
《深入浅出Apache Spark》系列②:Spark SQL原理精髓全解析
大数据·sql·spark
天冬忘忧2 天前
Spark 程序开发与提交:本地与集群模式全解析
大数据·分布式·spark
全栈开发圈2 天前
新书速览|Spark SQL大数据分析快速上手
sql·数据分析·spark
天冬忘忧2 天前
Spark on YARN:Spark集群模式之Yarn模式的原理、搭建与实践
大数据·spark
出发行进2 天前
PySpark本地开发环境搭建
大数据·python·数据分析·spark·anaconda
Mephisto.java2 天前
【大数据学习 | kafka高级部分】文件清除原理
大数据·hadoop·zookeeper·spark·kafka·hbase·flume
青春不流名2 天前
mysql-springboot netty-flink-kafka-spark(paimon)-minio
spark
小黑033 天前
Spark资源调度和任务调度
大数据·分布式·spark