spark性能调优 | 内存优化

目录

我们先了解一下有哪些内存

scala 复制代码
 1.storage内存   存储数据,缓存         可预估
 2.shuffle内存   计算join groupby     不可预估
 spark1.6之前  静态管理的,spark1.6之后变成动态管理  默认0.5

温馨提示

在公司尽量不要写rdd(性能不好)

RDD示范(spark版本2.1.1)

我们转成rdd去跑任务,看看内存占有多大

我们也可以去excutor看内存大小

显示红色,是因为我写了while循环

RDD进行优化

看官网
https://spark.apache.org/docs/2.4.5/configuration.html#compression-and-serialization

我们采用kryo(只支持rdd)

我们需要看看rdd的缓存级别
https://spark.apache.org/docs/2.4.5/rdd-programming-guide.html#which-storage-level-to-choose

使用序列化的缓存级别

发现1.7g直接变成了270m,优化还是挺大的!

Df和Ds进行示范

看官网
https://spark.apache.org/docs/2.4.5/sql-getting-started.html#creating-datasets

Ds会专门使用自己的偏码进行序列化

内存大小34.2M

我们还可以进行序列化(变化不大)

进行优化之后33.9M

相关推荐
LJ97951118 分钟前
告别“通稿地狱”:Infoseek智能媒体发布如何重塑内容分发的游戏规则
大数据·人工智能
草莓熊Lotso8 分钟前
Qt 按钮与显示类控件实战:从交互到展示全攻略
大数据·开发语言·c++·人工智能·qt·microsoft·交互
TechubNews15 分钟前
Techub News 專訪高鋒集團合夥人、Web3Labs行政總裁黃俊瑯:以資本與生態,賦能傳統企業Web3轉型
大数据·网络·人工智能·区块链
火星数据-Tina17 分钟前
体育平台搭建:如何高效引入赛事直播与比分数据
大数据·前端·网络
Fabarta技术团队19 分钟前
AI4S能否打破「十年磨一剑」研发困境?枫清科技智能体引擎激活科研跨域协同生产力
大数据·人工智能·microsoft
TOYOAUTOMATON21 分钟前
节卡机器人 2026:核心动态与全景解析
大数据·人工智能·目标检测·机器人·自动化
阿白逆袭记21 分钟前
Git原理与使用详解(五):平行宇宙——Git分支管理艺术
大数据·git·elasticsearch
2401_8401922722 分钟前
ZooKeeper 单机部署指南
分布式·zookeeper·云原生
Light6024 分钟前
领码 SPARK aPaaS 前端开发体系 技术架构(最终版)
低代码·spark·前端架构·apaas·模型驱动·能力分层·上下文契约
AI营销干货站24 分钟前
原圈科技解码AI市场分析:三大引擎告别滞后洞察,抢占2026市场先机
大数据·人工智能