spark sql 优化

  1. 配置 比例内存 : core = 1:2

  2. 增加 core 数可以增加 执行任务的 线程数

  3. 计算有大表,并发生shuffle 时,生成的任务数是由spark.sql.shuffle.partitions 决定的,所以针对大表shuffle ,要增加spark.sql.shuffle.partitions 配置值,不然有很多core 处于空闲状态

相关推荐
码界筑梦坊26 分钟前
基于Flask的京东商品信息可视化分析系统的设计与实现
大数据·python·信息可视化·flask·毕业设计
Bai_Yin2 小时前
Debezium 与 Apache Kafka 的集成方式
分布式·kafka·apache·debezium
劉煥平CHN2 小时前
RabbitMQ的脑裂(网络分区)问题
网络·分布式·rabbitmq
明达技术2 小时前
分布式 IO 模块:水力发电设备高效控制的关键
分布式
专注API从业者3 小时前
分布式电商系统中的API网关架构设计
大数据·数据仓库·分布式·架构
点点滴滴的记录4 小时前
系统设计之分布式
分布式
viperrrrrrrrrr75 小时前
大数据学习(49) - Flink按键分区状态(Keyed State)
大数据·学习·flink
roman_日积跬步-终至千里6 小时前
【分布式理论15】分布式调度1:分布式资源调度的由来与过程
分布式
狮歌~资深攻城狮6 小时前
未来已来:HBase的新功能与发展趋势展望
大数据·wpf·hbase
weixin_307779136 小时前
PySpark实现MERGE INTO的数据合并功能
大数据·python·spark