【spark RDD】spark 之 Kryo高性能序列化框架

文章目录

    • [一. RDD序列化的原因](#一. RDD序列化的原因)
    • [二. Kryo序列化框架](#二. Kryo序列化框架)
    • [三. spark 配置 kryo 序列化](#三. spark 配置 kryo 序列化)
      • [1. 设定kryo序列化](#1. 设定kryo序列化)
      • [2. 注册序列化类(非必须,但是强烈建议做)](#2. 注册序列化类(非必须,但是强烈建议做))
      • [3. 配置 spark.kryoserializer.buffer](#3. 配置 spark.kryoserializer.buffer)

一. RDD序列化的原因

Spark初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的。所以用户开发的关于RDD的map,flatMap,reduceByKey等transformation 操作(闭包)有如下执行过程:

  • 代码中对象在driver本地序列化
  • 对象序列化后传输到远程executor节点
  • 远程executor节点反序列化对象,最终在远程executor节点中执行。

在spark中4个地方用到了序列化:

  • 算子中用到了driver定义的外部变量时;
  • 将自定义的class作为RDD的数据类型时;
  • 使用可序列化的持久化策略的时候。比如:MEMORY_ONLY_SER,spark会将RDD中每个分区都序列化成一个大的字节数组;
  • shuffle。

二. Kryo序列化框架

官网地址: https://github.com/EsotericSoftware/kryo

Java的序列化能够序列化任何的类。但是比较重,序列化后对象的体积也比较大。

Spark出于性能的考虑,Spark2.0开始支持另外一种Kryo序列化机制。Kryo速度是Serializable的10倍。当RDD在Shuffle数据的时候,简单数据类型、数组和字符串类型已经在Spark内部使用Kryo来序列化。

spark使用Kryo序列化框架

java 复制代码
public class Test02_Kryo {

    public static void main(String[] args) throws ClassNotFoundException {

        // 1.创建配置对象
        SparkConf conf = new SparkConf().setMaster("local[*]").setAppName("sparkCore")
                // 替换默认的序列化机制
                .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
                    // 注册需要使用 kryo 序列化的自定义类(非必须,但是强烈建议做)
      // 虽说该步不是必须要做的(不做Kryo仍然能够工作),但是如果不注册的话,
      //  Kryo会存储自定义类中用到的所有对象的类名全路径,这将会导致耗费大量内存。
                .registerKryoClasses(new Class[]{Class.forName("com.atguigu.bean.User")});

        // 2. 创建sparkContext
        JavaSparkContext sc = new JavaSparkContext(conf);

        // 3. 编写代码
        User zhangsan = new User("zhangsan", 13);
        User lisi = new User("lisi", 13);
        JavaRDD<User> userJavaRDD = sc.parallelize(Arrays.asList(zhangsan, lisi), 2);

        JavaRDD<User> mapRDD = userJavaRDD.map(new Function<User, User>() {
            @Override
            public User call(User v1) throws Exception {
                return new User(v1.getName(), v1.getAge() + 1);
            }
        });
        mapRDD. collect().forEach(System.out::println);
        sc.stop();

    }
}

public class User implements Serializable {
    private String name;
    private Integer age;
// getter 、setter、tostring
}

三. spark 配置 kryo 序列化

1. 设定kryo序列化

shell 复制代码
1.配置文件方式
可以在配置文件spark-default.conf中添加该配置项(全局生效)

spark.serializer   org.apache.spark.serializer.KryoSerializer


2.业务代码中配置
在业务代码中通过SparkConf进行配置(针对当前application生效)

val spark = SparkSession.builder().master("local[*]").appName("test").getOrCreate()
val conf = new SparkConf
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")


3.在spark-shell、spark-submit脚本中启动
可以在命令中加上

--conf spark.serializer=org.apache.spark.serializer.KryoSerializer

2. 注册序列化类(非必须,但是强烈建议做)

java 复制代码
......
conf.registerKryoClasses(Array(classOf[Test1], classOf[Test2]))
// 其中Test1.java 和 Test2.java 是自定义的类

如果是scala类Test1(scala中的trait就相当于java中的接口):



class Test1 extends Serializable {
    ......
}

注意:虽说该步不是必须要做的(不做Kryo仍然能够工作),但是如果不注册的话,Kryo会存储自定义类中用到的所有对象的类名全路径,这将会导致耗费大量内存,耗费内存比使用java更大。

3. 配置 spark.kryoserializer.buffer

如果要被序列化的对象很大,可以将spark.kryoserializer.buffer (默认64k)设置的大些,使得其能够hold要序列化的最大的对象。

参考:

https://blog.51cto.com/u_12902538/3727315

尚硅谷2024spark教程

相关推荐
Data 3172 小时前
Hive数仓操作(十一)
大数据·数据库·数据仓库·hive·hadoop
qtj-0013 小时前
普通人在刚开始做副业时要注意哪些细节?
大数据·微信·新媒体运营·创业创新
知识分享小能手3 小时前
mysql学习教程,从入门到精通,SQL 修改表(ALTER TABLE 语句)(29)
大数据·开发语言·数据库·sql·学习·mysql·数据分析
a6953188_4 小时前
如何评估一个副业项目的可行性?
大数据·微信·创业创新
州周4 小时前
Flink一点整理
大数据·flink
柚乐果果4 小时前
数据分析实战简例
java·大数据·python
Data 3174 小时前
Hive数仓操作(九)
大数据·数据仓库·hive·hadoop
丶21365 小时前
【大数据】Elasticsearch 实战应用总结
大数据·elasticsearch·搜索引擎
闲人编程5 小时前
elasticsearch实战应用
大数据·python·elasticsearch·实战应用
Data 3178 小时前
Hive数仓操作(三)
大数据·数据库·数据仓库·hive·hadoop