spark sql 优化

  1. 配置 比例内存 : core = 1:2

  2. 增加 core 数可以增加 执行任务的 线程数

  3. 计算有大表,并发生shuffle 时,生成的任务数是由spark.sql.shuffle.partitions 决定的,所以针对大表shuffle ,要增加spark.sql.shuffle.partitions 配置值,不然有很多core 处于空闲状态

相关推荐
TDengine (老段)1 小时前
TDengine 语言连接器(Node.js)
大数据·c语言·数据库·物联网·node.js·时序数据库·tdengine
明月看潮生2 小时前
青少年编程与数学 02-016 Python数据结构与算法 23课题、分布式算法
分布式·python·算法·青少年编程·编程与数学
jinan8864 小时前
加密软件的发展:从古典密码到量子安全
大数据·运维·服务器·网络·安全·web安全
[email protected]4 小时前
ASP.NET Core 性能优化:分布式缓存
分布式·缓存·性能优化·asp.net·.netcore
CC数学建模5 小时前
第十七届“华中杯”大学生数学建模挑战赛题目A题 晶硅片产销策略优化 完整成品 代码 模型 思路 分享
大数据
bulucc5 小时前
回归,git 分支开发操作命令
大数据·git·elasticsearch
计算机毕设定制辅导-无忧学长6 小时前
TDengine 存储引擎剖析:数据文件与索引设计(二)
大数据·时序数据库·tdengine
计算机毕设定制辅导-无忧学长6 小时前
TDengine 存储引擎剖析:数据文件与索引设计(一)
大数据·时序数据库·tdengine
ZStack开发者社区6 小时前
ZStack文档DevOps平台建设实践
java·大数据·开发语言·devops