spark性能调优 | 内存优化

目录

我们先了解一下有哪些内存

scala 复制代码
 1.storage内存   存储数据,缓存         可预估
 2.shuffle内存   计算join groupby     不可预估
 spark1.6之前  静态管理的,spark1.6之后变成动态管理  默认0.5

温馨提示

在公司尽量不要写rdd(性能不好)

RDD示范(spark版本2.1.1)

我们转成rdd去跑任务,看看内存占有多大

我们也可以去excutor看内存大小

显示红色,是因为我写了while循环

RDD进行优化

看官网
https://spark.apache.org/docs/2.4.5/configuration.html#compression-and-serialization

我们采用kryo(只支持rdd)

我们需要看看rdd的缓存级别
https://spark.apache.org/docs/2.4.5/rdd-programming-guide.html#which-storage-level-to-choose

使用序列化的缓存级别

发现1.7g直接变成了270m,优化还是挺大的!

Df和Ds进行示范

看官网
https://spark.apache.org/docs/2.4.5/sql-getting-started.html#creating-datasets

Ds会专门使用自己的偏码进行序列化

内存大小34.2M

我们还可以进行序列化(变化不大)

进行优化之后33.9M

相关推荐
技术民工之路10 分钟前
Gephi网络(图)分析与可视化工具
大数据·数据可视化
天行健,君子而铎1 小时前
从人工规则到智能认知:构建自适应、高性能与合规并重的数据分类分级体系
大数据·人工智能·分类
蓝魔Y1 小时前
Flink—Sql接口
大数据·flink
Jack_David2 小时前
Kafka批量消息发送
java·分布式·kafka
霑潇雨2 小时前
题解 | 深入分析各款产品年总销售额与竞品的年度对比
大数据·开发语言·数据库
wanhengidc2 小时前
服务器托管对企业的作用
大数据·运维·服务器·分布式·智能手机
Code知行合壹2 小时前
Spark使用总结
大数据·分布式·spark
Swift社区3 小时前
分布式能力不是功能,而是一种架构约束
分布式·架构
北京软秦科技有限公司3 小时前
AI报告文档审核守护医疗安全:IACheck助力口腔器械消毒检测报告全面合规
大数据·人工智能·安全
运维小欣3 小时前
2026 企业可观测性平台选型白皮书
大数据·人工智能