spark sql 优化

  1. 配置 比例内存 : core = 1:2

  2. 增加 core 数可以增加 执行任务的 线程数

  3. 计算有大表,并发生shuffle 时,生成的任务数是由spark.sql.shuffle.partitions 决定的,所以针对大表shuffle ,要增加spark.sql.shuffle.partitions 配置值,不然有很多core 处于空闲状态

相关推荐
agent89719 分钟前
Elasticsearch 慢查询排查:从 Mapping、分片、分页到聚合优化
大数据·elasticsearch·django
今日综合26 分钟前
2026精选教务管理系统深度分析:功能差异、收费模式全拆解
大数据·人工智能
thubier(段新建)35 分钟前
OWTB 3PL 核心主流程与行业落地方案
大数据·人工智能
YangYang9YangYan41 分钟前
2026大数据专业毕业学数据分析的价值
大数据·数据挖掘·数据分析
跨境生态圈41 分钟前
2026外贸获客渠道全面洗牌:AI正在重新分配全球流量,你的品牌在答案里吗?
大数据·运维·人工智能·chatgpt
YangYang9YangYan1 小时前
2026大数据专业填报志愿学数据分析的价值
大数据·数据挖掘·数据分析
livemetee1 小时前
关于【Kafka高可用配置】
分布式·kafka
TTBIGDATA1 小时前
【Ambari Plus】11.Kafka 安装
大数据·hadoop·分布式·kafka·ambari·hdp·ambari plus
星空1 小时前
git指令
大数据·elasticsearch·搜索引擎
李昊哲小课1 小时前
Ubuntu26.04 搭建 Hadoop3.5.0 完全分布式
大数据·hadoop·分布式·ubuntu·hdfs·mapreduce