spark性能调优 | 内存优化

目录

我们先了解一下有哪些内存

scala 复制代码
 1.storage内存   存储数据,缓存         可预估
 2.shuffle内存   计算join groupby     不可预估
 spark1.6之前  静态管理的,spark1.6之后变成动态管理  默认0.5

温馨提示

在公司尽量不要写rdd(性能不好)

RDD示范(spark版本2.1.1)

我们转成rdd去跑任务,看看内存占有多大

我们也可以去excutor看内存大小

显示红色,是因为我写了while循环

RDD进行优化

看官网
https://spark.apache.org/docs/2.4.5/configuration.html#compression-and-serialization

我们采用kryo(只支持rdd)

我们需要看看rdd的缓存级别
https://spark.apache.org/docs/2.4.5/rdd-programming-guide.html#which-storage-level-to-choose

使用序列化的缓存级别

发现1.7g直接变成了270m,优化还是挺大的!

Df和Ds进行示范

看官网
https://spark.apache.org/docs/2.4.5/sql-getting-started.html#creating-datasets

Ds会专门使用自己的偏码进行序列化

内存大小34.2M

我们还可以进行序列化(变化不大)

进行优化之后33.9M

相关推荐
徐礼昭|商派软件市场负责人4 分钟前
2026年“服饰行业全渠道OMS系统”库存/订单运营策略:以“一盘货+分渠分级”驱动销售最大化
大数据·人工智能·oms系统·服饰行业库存管理
试剂界的爱马仕24 分钟前
AI学习实现:如何给基金实时估值?
大数据·人工智能·科技·学习·机器学习
隐于花海,等待花开1 小时前
15.TO_DATE 函数深度解析
大数据·hive
小的~~1 小时前
排查Flink状态膨胀导致Checkpoint超时的问题
大数据·flink
数智化精益手记局1 小时前
什么是安全生产?解读安全生产的基本方针与核心要求
大数据·运维·人工智能·安全·信息可视化·自动化·精益工程
weisian1511 小时前
Java并发编程--44-分布式限流:令牌桶与漏桶算法在网关层的落地
java·分布式·令牌桶算法·漏桶算法·固定窗口算法·滑动窗口算法
一个程序猿老马1 小时前
013、推送与拉取:git push与git pull的协作流程
大数据·git·elasticsearch
Rubin智造社1 小时前
04月25日AI每日参考:谷歌豪掷400亿押注Anthropic,DeepSeek V4横空出世
大数据·人工智能·物联网·comfyui·deepseek v4·谷歌anthropic投资·meta亚马逊芯片
冯RI375II694872 小时前
儿童牙胶CPSC和FDA认证的测试费用大概是多少?
大数据
企业架构师老王2 小时前
药品生产环节:用实在Agent自动生成批记录与打印领料单的合规设计与架构落地
大数据·人工智能·ai·架构