详解 Spark 核心编程之 RDD 序列化

一、问题引出

scala 复制代码
object TestRDDSerializable {
    def main(args: Array[String]): Unit = {
        val sparkConf = new SparkConf().setMaster("local[*]").setAppName("ser")
        val sc = new SparkContext(sparkConf)
        
        val rdd = sc.makeRDD(List(1,2,3,4), 2)
        
        val user = new User()
        
        rdd.foreach(num => {
            println("age = " + (user.age + num))
        })
        
        /*
         结果:程序执行抛出异常 NotSerializableException
         分析:
          1.foreach 算子外部的执行是在 Driver 端,内部的操作是在 Executor 端执行
          2.foreach 算子的内部操作使用到了 user 对象的属性,所以 user 对象需要从 Driver 发送到 Executor,涉及到网络传输
          3.由于 User 类没有混入序列化特质,所以抛出异常
          4.解决方法:class User extends Serializable {} 或 case class User {},样例类在编译时会自动混入序列化
        */
        
        println("=================")
        
        val rdd1 = sc.makeRDD(List[Int](), 2)
        
        val user1 = new User()
        
        rdd1.foreach(num => {
            println("age = " + (user1.age + num))
        })
        
        /*
         期望:由于rdd1没有数据,foreach 算子不会实际执行,即使 User 没有混入序列化也不会报错
         结果:程序执行抛出异常 NotSerializableException
         分析:
          1.RDD 算子中如果传递的是函数参数,则会涉及到闭包操作,内部会调用 sc.clean(f)
          2.clean 方法底层会进行闭包检测,其中就包含序列化的检测,如果检测到使用的对象没有混入序列化特质,就会抛出异常
        */
    }
}

class User {
    val age: Int = 30
}

二、Kryo 序列化框架

  • 参考地址:https://github.com/EsotericSoftware/kryo

  • 与 Java 序列化的对比:

    • Java 的序列化比较重,生成的文件字节比较多,而 Kryo 序列化是轻量级的,产生的字节较少,所以 Kryo 速度是 Serializable 的 10 倍
    • Java 的序列化中可以通过 transient 关键字限制不参与序列化的属性,而 transient 关键字在 Kryo 序列化中不产生作用
  • 自定义 Kryo 序列化

    scala 复制代码
    /*
    简单数据类型、数组和字符串类型已经在 Spark 内部使用 Kryo 来序列化
    */
    object TestKryoSerializable {
        def main(args: Array[String]): Unit = {
        	val conf = new SparkConf().setMaster("local[*]").setAppName("Ser")
            
            // 替换默认的序列化机制
            conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
            // 注册需要使用  kryo  序列化的自定义类,该类必须混入 Serializable 特质
            conf.registerKryoClasses(Array(classOf[Searcher]))
            
        	val sc = new SparkContext(conf)
            
        	val rdd: RDD[String] = sc.makeRDD(Array(
                "hello world", "hello spark", 
        		"kafka", "hive"
            ), 2)
            
        	val searcher = new Searcher("h")
            
        	val result: RDD[String] = searcher.getMatchedRDD1(rdd)
            
        	result.collect.foreach(println)
            
        }
    }
    
    case class Searcher(val query: String) { 
        def isMatch(s: String) = {
        	s.contains(query) // this.query
        }
        
        def getMatchedRDD1(rdd: RDD[String]) = {
        	rdd.filter(isMatch) 
        }
        
        def getMatchedRDD2(rdd: RDD[String]) = {
            val q = query
        	rdd.filter(_.contains(q))
        }
    }
相关推荐
嵌入式冰箱2 分钟前
2024年中国研究生数学建模竞赛D题“大数据驱动的地理综合问题”全析全解
大数据·数学建模
Jack黄从零学c++5 分钟前
自制网络连接工具(支持tcpudp,客户端服务端)
linux·c语言·开发语言·网络协议·tcp/ip·udp·信息与通信
是店小二呀9 分钟前
数据飞轮崛起:数据中台真的过时了吗?
大数据
day3ZY34 分钟前
清理C盘缓存,电脑缓存清理怎么一键删除,操作简单的教程
c语言·开发语言·缓存
学地理的小胖砸1 小时前
【高分系列卫星简介】
开发语言·数码相机·算法·遥感·地理信息
码农豆豆1 小时前
4.C++中程序中的命名空间
开发语言·c++
怀九日1 小时前
C++(学习)2024.9.19
开发语言·c++·学习·重构·对象·
guitarCC1 小时前
spark Rdd的创建方式
大数据·分布式·spark
KookeeyLena81 小时前
如何限制任何爬虫爬取网站的图片
开发语言·c++·爬虫
B站计算机毕业设计超人1 小时前
计算机毕业设计hadoop+spark知网文献论文推荐系统 知识图谱 知网爬虫 知网数据分析 知网大数据 知网可视化 预测系统 大数据毕业设计 机器学习
大数据·hadoop·爬虫·机器学习·spark·知识图谱·推荐算法