spark sql 优化

  1. 配置 比例内存 : core = 1:2

  2. 增加 core 数可以增加 执行任务的 线程数

  3. 计算有大表,并发生shuffle 时,生成的任务数是由spark.sql.shuffle.partitions 决定的,所以针对大表shuffle ,要增加spark.sql.shuffle.partitions 配置值,不然有很多core 处于空闲状态

相关推荐
敲上瘾33 分钟前
Elasticsearch从入门到实践:核心概念到Kibana测试与C++客户端封装
大数据·linux·c++·elasticsearch·搜索引擎·全文检索
api_180079054601 小时前
请求、认证与响应数据解析:1688 商品 API 接口深度探秘
java·大数据·开发语言·mysql·数据挖掘
LitRad1 小时前
kafka问题解决
分布式·kafka
0和1的舞者4 小时前
网络通信的奥秘:网络层ip与路由详解(四)
大数据·网络·计算机网络·计算机·智能路由器·计算机科学与技术
WLJT1231231235 小时前
九寨:在山水间触摸生活的诗意
大数据·生活
Elastic 中国社区官方博客8 小时前
在 Elasticsearch 中使用 Mistral Chat completions 进行上下文工程
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
橙色云-智橙协同研发8 小时前
从 CAD 图纸到 Excel 数据:橙色云智橙 PLM 打造制造企业数字化协同新模式
大数据·功能测试·云原生·cad·plm·云plm·bom提取
喝可乐的希饭a9 小时前
Elasticsearch 的 Routing 策略详解
大数据·elasticsearch·搜索引擎
梦里不知身是客1111 小时前
sparkSQL读取数据的方式
spark
TDengine (老段)11 小时前
TDengine 字符串函数 CHAR 用户手册
java·大数据·数据库·物联网·时序数据库·tdengine·涛思数据