spark sql 优化

  1. 配置 比例内存 : core = 1:2

  2. 增加 core 数可以增加 执行任务的 线程数

  3. 计算有大表,并发生shuffle 时,生成的任务数是由spark.sql.shuffle.partitions 决定的,所以针对大表shuffle ,要增加spark.sql.shuffle.partitions 配置值,不然有很多core 处于空闲状态

相关推荐
Data-Miner1 小时前
如何构建大数据治理平台,助力企业数据决策
大数据
成都古河云2 小时前
智慧体育场馆:科技引领未来运动体验
大数据·网络·人工智能·科技·物联网·运维开发
ZStack开发者社区2 小时前
云轴科技ZStack 获鲲鹏应用创新大赛2024上海赛区决赛一等奖
大数据·人工智能·科技
流浪的大萝卜2 小时前
开发一个电商API接口的步骤!!!
java·大数据·前端·数据仓库·后端·爬虫·python
芊言芊语2 小时前
Kafka详细解析与应用分析
分布式·kafka
汇匠源2 小时前
Java在零工市场中的应用:构建灵活高效的劳动力平台
java·大数据·开发语言·团队开发
毕设木哥3 小时前
25届计算机专业选题推荐-基于python的线上拍卖会管理系统【python-爬虫-大数据定制】
大数据·开发语言·数据库·爬虫·python·信息可视化·课程设计
金灰4 小时前
无线安全(WiFi)
大数据·网络·安全·智能路由器
zjytldz4 小时前
主流无线物联网通信技术有哪些
大数据·运维·网络·数据库·人工智能·物联网
Lansonli5 小时前
大数据Flink(一百一十八):SQL水印操作(Watermark)
大数据·flink