spark性能调优 | 内存优化

目录

我们先了解一下有哪些内存

scala 复制代码
 1.storage内存   存储数据,缓存         可预估
 2.shuffle内存   计算join groupby     不可预估
 spark1.6之前  静态管理的,spark1.6之后变成动态管理  默认0.5

温馨提示

在公司尽量不要写rdd(性能不好)

RDD示范(spark版本2.1.1)

我们转成rdd去跑任务,看看内存占有多大

我们也可以去excutor看内存大小

显示红色,是因为我写了while循环

RDD进行优化

看官网
https://spark.apache.org/docs/2.4.5/configuration.html#compression-and-serialization

我们采用kryo(只支持rdd)

我们需要看看rdd的缓存级别
https://spark.apache.org/docs/2.4.5/rdd-programming-guide.html#which-storage-level-to-choose

使用序列化的缓存级别

发现1.7g直接变成了270m,优化还是挺大的!

Df和Ds进行示范

看官网
https://spark.apache.org/docs/2.4.5/sql-getting-started.html#creating-datasets

Ds会专门使用自己的偏码进行序列化

内存大小34.2M

我们还可以进行序列化(变化不大)

进行优化之后33.9M

相关推荐
gaoshengdainzi9 分钟前
GB/T23448-2019卫生洁具软管专用检测设备全套解决方案
大数据·卫生洁具软管检测设备·软管试验机
talen_hx29610 分钟前
《零基础入门Spark》学习笔记 Day 13
笔记·学习·spark
foundbug99940 分钟前
Matlab基于分布式模型预测控制的多固定翼无人机共识控制
分布式·matlab·无人机
茶靡花开04151 小时前
什么是DMS经销商管理系统?经销商管理系统哪个好?
大数据·人工智能
一个有温度的技术博主1 小时前
Redis集群实战:如何实现节点的弹性伸缩与数据迁移?
redis·分布式·缓存·架构
Gofarlic_OMS2 小时前
HyperWorks用户仿真行为分析与许可证资源分点配置
java·大数据·运维·服务器·人工智能
fire-flyer2 小时前
ClickHouse系列(二):MergeTree 家族详解
大数据·数据库·clickhouse
lifallen2 小时前
Flink Agent:RunnerContext 注入与装配演进分析
java·大数据·人工智能·语言模型·flink
QDYOKR1682 小时前
一文了解什么是OKR
大数据·人工智能·笔记·钉钉·企业微信
Elastic 中国社区官方博客2 小时前
Elasticsearch:运用 JINA 来实现多模态搜索的 RAG
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·jina