【spark RDD】spark 之 Kryo高性能序列化框架

文章目录

    • [一. RDD序列化的原因](#一. RDD序列化的原因)
    • [二. Kryo序列化框架](#二. Kryo序列化框架)
    • [三. spark 配置 kryo 序列化](#三. spark 配置 kryo 序列化)
      • [1. 设定kryo序列化](#1. 设定kryo序列化)
      • [2. 注册序列化类(非必须,但是强烈建议做)](#2. 注册序列化类(非必须,但是强烈建议做))
      • [3. 配置 spark.kryoserializer.buffer](#3. 配置 spark.kryoserializer.buffer)

一. RDD序列化的原因

Spark初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的。所以用户开发的关于RDD的map,flatMap,reduceByKey等transformation 操作(闭包)有如下执行过程:

  • 代码中对象在driver本地序列化
  • 对象序列化后传输到远程executor节点
  • 远程executor节点反序列化对象,最终在远程executor节点中执行。

在spark中4个地方用到了序列化:

  • 算子中用到了driver定义的外部变量时;
  • 将自定义的class作为RDD的数据类型时;
  • 使用可序列化的持久化策略的时候。比如:MEMORY_ONLY_SER,spark会将RDD中每个分区都序列化成一个大的字节数组;
  • shuffle。

二. Kryo序列化框架

官网地址: https://github.com/EsotericSoftware/kryo

Java的序列化能够序列化任何的类。但是比较重,序列化后对象的体积也比较大。

Spark出于性能的考虑,Spark2.0开始支持另外一种Kryo序列化机制。Kryo速度是Serializable的10倍。当RDD在Shuffle数据的时候,简单数据类型、数组和字符串类型已经在Spark内部使用Kryo来序列化。

spark使用Kryo序列化框架

java 复制代码
public class Test02_Kryo {

    public static void main(String[] args) throws ClassNotFoundException {

        // 1.创建配置对象
        SparkConf conf = new SparkConf().setMaster("local[*]").setAppName("sparkCore")
                // 替换默认的序列化机制
                .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
                    // 注册需要使用 kryo 序列化的自定义类(非必须,但是强烈建议做)
      // 虽说该步不是必须要做的(不做Kryo仍然能够工作),但是如果不注册的话,
      //  Kryo会存储自定义类中用到的所有对象的类名全路径,这将会导致耗费大量内存。
                .registerKryoClasses(new Class[]{Class.forName("com.atguigu.bean.User")});

        // 2. 创建sparkContext
        JavaSparkContext sc = new JavaSparkContext(conf);

        // 3. 编写代码
        User zhangsan = new User("zhangsan", 13);
        User lisi = new User("lisi", 13);
        JavaRDD<User> userJavaRDD = sc.parallelize(Arrays.asList(zhangsan, lisi), 2);

        JavaRDD<User> mapRDD = userJavaRDD.map(new Function<User, User>() {
            @Override
            public User call(User v1) throws Exception {
                return new User(v1.getName(), v1.getAge() + 1);
            }
        });
        mapRDD. collect().forEach(System.out::println);
        sc.stop();

    }
}

public class User implements Serializable {
    private String name;
    private Integer age;
// getter 、setter、tostring
}

三. spark 配置 kryo 序列化

1. 设定kryo序列化

shell 复制代码
1.配置文件方式
可以在配置文件spark-default.conf中添加该配置项(全局生效)

spark.serializer   org.apache.spark.serializer.KryoSerializer


2.业务代码中配置
在业务代码中通过SparkConf进行配置(针对当前application生效)

val spark = SparkSession.builder().master("local[*]").appName("test").getOrCreate()
val conf = new SparkConf
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")


3.在spark-shell、spark-submit脚本中启动
可以在命令中加上

--conf spark.serializer=org.apache.spark.serializer.KryoSerializer

2. 注册序列化类(非必须,但是强烈建议做)

java 复制代码
......
conf.registerKryoClasses(Array(classOf[Test1], classOf[Test2]))
// 其中Test1.java 和 Test2.java 是自定义的类

如果是scala类Test1(scala中的trait就相当于java中的接口):



class Test1 extends Serializable {
    ......
}

注意:虽说该步不是必须要做的(不做Kryo仍然能够工作),但是如果不注册的话,Kryo会存储自定义类中用到的所有对象的类名全路径,这将会导致耗费大量内存,耗费内存比使用java更大。

3. 配置 spark.kryoserializer.buffer

如果要被序列化的对象很大,可以将spark.kryoserializer.buffer (默认64k)设置的大些,使得其能够hold要序列化的最大的对象。

参考:

https://blog.51cto.com/u_12902538/3727315

尚硅谷2024spark教程

相关推荐
黄雪超4 小时前
Flink介绍——实时计算核心论文之S4论文总结
大数据·论文阅读·flink
viperrrrrrrrrr75 小时前
大数据学习(96)-Hive面试题
大数据·hive·学习
csssnxy6 小时前
叁仟数智指路机器人是否支持远程监控和管理?
大数据·人工智能
爱编程的王小美9 小时前
Elasticsearch详解
大数据·elasticsearch·搜索引擎
想你依然心痛10 小时前
Spark大数据分析与实战笔记(第四章 Spark SQL结构化数据文件处理-03)
笔记·数据分析·spark
大湾区经济门户网10 小时前
中国移动启动数字乡村“五新升级”:年底前,行政村5G覆盖达95%
大数据·5g·区块链·媒体
小诸葛的博客11 小时前
es中节点类型有哪些
大数据·elasticsearch·jenkins
随缘而动,随遇而安11 小时前
第四十篇 企业级数据仓库建模深度实践:从理论到落地的维度建模全攻略
大数据·数据库·数据仓库·数据分析·数据库架构
2501_9110676613 小时前
探秘叁仟智盒设备:智慧城市的智能枢纽
大数据·人工智能·智慧城市
黄雪超14 小时前
核心知识—— RDD常用算子之数据转换
大数据·spark