spark sql 优化

  1. 配置 比例内存 : core = 1:2

  2. 增加 core 数可以增加 执行任务的 线程数

  3. 计算有大表,并发生shuffle 时,生成的任务数是由spark.sql.shuffle.partitions 决定的,所以针对大表shuffle ,要增加spark.sql.shuffle.partitions 配置值,不然有很多core 处于空闲状态

相关推荐
xiaohuoji12921 小时前
量化交易系统架构设计:从回测到实盘的4层分层方案(附架构图)
大数据·人工智能·数据挖掘·数据分析·个人开发·设计规范
富士康质检员张全蛋21 小时前
kafka 环境部署
分布式·kafka
RFID舜识物联网21 小时前
RFID耐高温标签:汽车喷涂线智能追溯的破局之道
大数据·人工智能·科技·物联网·安全·汽车
小真zzz1 天前
超越“快照”,深入“解剖”:搜极星专业版如何成为品牌AI心智的“高分辨率核磁共振”
大数据·人工智能·ai·seo·geo
我是发哥哈1 天前
横向评测:主流AI培训方案的关键维度对比
大数据·人工智能·学习·机器学习·chatgpt
pengyi8710151 天前
代理IP在爬虫中的核心应用,高匿代理避检测基础
大数据·网络·网络协议·tcp/ip·http
PGFA1 天前
【深度实战】详解 ORA-01591:因网络波动引发的分布式事务死锁及全流程修复
网络·分布式
智慧化智能化数字化方案1 天前
如何进行企业经营分析——解读2026年经营分析模板指南【附全文阅读】
大数据·2026年经营分析模板·经营计划数据分析模型·经营分析系统·经营分析4大框架·经营分析与决策支持·企业经营分析框架
FL4m3Y4n1 天前
分布式消息推送系统协议设计【C++ grpc kafka】
c++·分布式·kafka
ward RINL1 天前
分布式推理框架 xDit
分布式