spark sql 优化

  1. 配置 比例内存 : core = 1:2

  2. 增加 core 数可以增加 执行任务的 线程数

  3. 计算有大表,并发生shuffle 时,生成的任务数是由spark.sql.shuffle.partitions 决定的,所以针对大表shuffle ,要增加spark.sql.shuffle.partitions 配置值,不然有很多core 处于空闲状态

相关推荐
Aomnitrix3 小时前
知识管理新范式——cpolar+Wiki.js打造企业级分布式知识库
开发语言·javascript·分布式
程序消消乐4 小时前
Kafka 入门指南:从 0 到 1 构建你的 Kafka 知识基础入门体系
分布式·kafka
智能化咨询4 小时前
Kafka架构:构建高吞吐量分布式消息系统的艺术——进阶优化与行业实践
分布式·架构·kafka
Chasing__Dreams4 小时前
kafka--基础知识点--5.2--最多一次、至少一次、精确一次
分布式·kafka
计算机毕业设计木哥4 小时前
计算机毕设选题推荐:基于Java+SpringBoot物品租赁管理系统【源码+文档+调试】
java·vue.js·spring boot·mysql·spark·毕业设计·课程设计
T06205144 小时前
工具变量-5G试点城市DID数据(2014-2025年
大数据
向往鹰的翱翔5 小时前
BKY莱德因:5大黑科技逆转时光
大数据·人工智能·科技·生活·健康医疗
鸿乃江边鸟5 小时前
向量化和列式存储
大数据·sql·向量化
IT毕设梦工厂6 小时前
大数据毕业设计选题推荐-基于大数据的客户购物订单数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·数据分析·spark·毕业设计·源码·bigdata