spark性能调优 | 内存优化

目录

我们先了解一下有哪些内存

scala 复制代码
 1.storage内存   存储数据,缓存         可预估
 2.shuffle内存   计算join groupby     不可预估
 spark1.6之前  静态管理的,spark1.6之后变成动态管理  默认0.5

温馨提示

在公司尽量不要写rdd(性能不好)

RDD示范(spark版本2.1.1)

我们转成rdd去跑任务,看看内存占有多大

我们也可以去excutor看内存大小

显示红色,是因为我写了while循环

RDD进行优化

看官网
https://spark.apache.org/docs/2.4.5/configuration.html#compression-and-serialization

我们采用kryo(只支持rdd)

我们需要看看rdd的缓存级别
https://spark.apache.org/docs/2.4.5/rdd-programming-guide.html#which-storage-level-to-choose

使用序列化的缓存级别

发现1.7g直接变成了270m,优化还是挺大的!

Df和Ds进行示范

看官网
https://spark.apache.org/docs/2.4.5/sql-getting-started.html#creating-datasets

Ds会专门使用自己的偏码进行序列化

内存大小34.2M

我们还可以进行序列化(变化不大)

进行优化之后33.9M

相关推荐
分布式存储与RustFS几秒前
对标MinIO!RustFS新一代AI分布式对象存储开源能力前瞻
人工智能·分布式·开源·分布式对象存储·rustfs·minio平替·s3 table
番茄去哪了2 分钟前
神领物流面试题(一)
java·大数据·中间件
qq_2915792516 分钟前
电商主图优化实战指南:AI工具如何提升点击率与转化率
大数据·人工智能·深度学习
黄焖鸡能干四碗20 分钟前
软件系统概要设计说明书模版(Word)
大数据·运维·数据库·架构·需求分析
老徐聊GEO1 小时前
AI搜索获客:亲测有效的实践案例分享
大数据·人工智能·python
AI_yangxi1 小时前
短视频矩阵系统供应商
大数据·人工智能·矩阵
段一凡-华北理工大学1 小时前
LangChain框架在高炉炼铁智能化领域的应用~系列文章02:从Prompt开始,让大模型听懂高炉的“黑话“
大数据·人工智能·学习·架构·langchain·prompt·高炉炼铁
真上帝的左手1 小时前
19. 大数据-数据治理-数据标准
大数据·数据分析
cxr8281 小时前
蜂群智能系统中“非必要不添加“原则的有效性再审视:基于分布式决策与通信复杂度的理论推导
人工智能·分布式·智能体
bIo7lyA8v2 小时前
算法工程中的可扩展性与分布式实现方案的技术8
分布式