spark性能调优 | 内存优化

目录

我们先了解一下有哪些内存

scala 复制代码
 1.storage内存   存储数据,缓存         可预估
 2.shuffle内存   计算join groupby     不可预估
 spark1.6之前  静态管理的,spark1.6之后变成动态管理  默认0.5

温馨提示

在公司尽量不要写rdd(性能不好)

RDD示范(spark版本2.1.1)

我们转成rdd去跑任务,看看内存占有多大

我们也可以去excutor看内存大小

显示红色,是因为我写了while循环

RDD进行优化

看官网
https://spark.apache.org/docs/2.4.5/configuration.html#compression-and-serialization

我们采用kryo(只支持rdd)

我们需要看看rdd的缓存级别
https://spark.apache.org/docs/2.4.5/rdd-programming-guide.html#which-storage-level-to-choose

使用序列化的缓存级别

发现1.7g直接变成了270m,优化还是挺大的!

Df和Ds进行示范

看官网
https://spark.apache.org/docs/2.4.5/sql-getting-started.html#creating-datasets

Ds会专门使用自己的偏码进行序列化

内存大小34.2M

我们还可以进行序列化(变化不大)

进行优化之后33.9M

相关推荐
摆烂小白敲代码8 小时前
腾讯云智能结构化OCR在物流行业的应用
大数据·人工智能·经验分享·ocr·腾讯云
雨大王5128 小时前
汽车生产智能计划助手如何提升排产效率并降低库存积压?
大数据·运维
反向跟单策略10 小时前
期货反向跟单-2025年回顾及2026年展望
大数据·人工智能·学习·数据分析·区块链
康康的AI博客12 小时前
智能情感分析与品牌策略优化:如何通过AI洞察提升企业市场响应力
大数据·数据库·人工智能
亚古数据12 小时前
法国公司的类型:探索法国企业的多样形态
大数据·人工智能·亚古数据·法国公司
金融小师妹12 小时前
3月美联储货币政策决策的动态博弈——基于就业市场数据与通胀预测的AI模型分析
大数据·人工智能·深度学习·机器学习
冯RI375II6948713 小时前
办理电池UN38.3认证:如何准备申请材料?
大数据
工具人555513 小时前
EEA是什么?—— 汽车的“神经系统”与“组织结构”
大数据
物联网软硬件开发-轨物科技14 小时前
【技术白皮书】光伏电站数智化技改技术白皮书:从老旧场站到高收益智能资产的演进路径
大数据·运维·服务器
星辰_mya14 小时前
消息队列遇到Producer发送慢
分布式·kafka