spark性能调优 | 内存优化

目录

我们先了解一下有哪些内存

scala 复制代码
 1.storage内存   存储数据,缓存         可预估
 2.shuffle内存   计算join groupby     不可预估
 spark1.6之前  静态管理的,spark1.6之后变成动态管理  默认0.5

温馨提示

在公司尽量不要写rdd(性能不好)

RDD示范(spark版本2.1.1)

我们转成rdd去跑任务,看看内存占有多大

我们也可以去excutor看内存大小

显示红色,是因为我写了while循环

RDD进行优化

看官网
https://spark.apache.org/docs/2.4.5/configuration.html#compression-and-serialization

我们采用kryo(只支持rdd)

我们需要看看rdd的缓存级别
https://spark.apache.org/docs/2.4.5/rdd-programming-guide.html#which-storage-level-to-choose

使用序列化的缓存级别

发现1.7g直接变成了270m,优化还是挺大的!

Df和Ds进行示范

看官网
https://spark.apache.org/docs/2.4.5/sql-getting-started.html#creating-datasets

Ds会专门使用自己的偏码进行序列化

内存大小34.2M

我们还可以进行序列化(变化不大)

进行优化之后33.9M

相关推荐
事变天下12 分钟前
第四届超声医学青年学术会议,推出全新启元AI超声生态
大数据·人工智能
AI科技星14 分钟前
ELN 升级:π 级数自动生成器全域数理架构
大数据·人工智能·python·算法·金融
@insist12323 分钟前
信息安全工程师-密码学专题(下):构建可信网络空间的核心机制
java·大数据·密码学·软考·信息安全工程师·软件水平考试
胡耀超1 小时前
从逻辑思维到方法论(DMBOK2)并以知识图谱实践指导:构建企业级思维与执行框架
大数据·人工智能·dama·知识图谱·方法论·逻辑学·思维框架
小张小张爱学习1 小时前
Kafka面试题
分布式·kafka
Irene19911 小时前
大数据开发入门 - 核心SQL英文单词本
大数据·英语
heiqizero1 小时前
Spark RDD转换算子01
spark
奇思智算2 小时前
小白AI创作GPU算力平台测评:多平台对比与选择指南
大数据·人工智能·gpu算力·智星云·gpu算力租用
瑞华丽PLM2 小时前
PLM系统解读
大数据·plm·国产plm·瑞华丽plm·瑞华丽
sheji1052 小时前
割草机器人行业市场分析报告
大数据·人工智能·microsoft