技术栈

spark sql 优化

红烛暗盗梦2024-09-04 10:49
  1. 配置 比例内存 : core = 1:2

  2. 增加 core 数可以增加 执行任务的 线程数

  3. 计算有大表,并发生shuffle 时,生成的任务数是由spark.sql.shuffle.partitions 决定的,所以针对大表shuffle ,要增加spark.sql.shuffle.partitions 配置值,不然有很多core 处于空闲状态

上一篇:基于SSM+Vue+MySQL的高校课程评价管理系统
下一篇:Python读取Excel数据教程 - 详细版
相关推荐
姬激薄
25 分钟前
什么是SparkONYarn模式
spark
猪猪果泡酒
26 分钟前
Spark,RDD中的行动算子
大数据·分布式·spark
2401_87129058
1 小时前
Spark处理过程-转换算子
大数据·分布式·spark
Betty_蹄蹄boo
1 小时前
运行Spark程序-在Spark-shell——RDD
大数据·分布式·spark
李恒-聆机智能专精数采
1 小时前
从零开始了解数据采集(二十七)——什么IIOT平台
大数据·人工智能·云计算·制造·数据采集·数据可视化
Caron_xcb
2 小时前
大数据——解决Matplotlib 字体不足问题(Linux\mac\windows)
大数据·linux·matplotlib
堕落年代
2 小时前
SpringBoot的单体和分布式的任务架构
spring boot·分布式·架构
TracyCoder123
2 小时前
ElasticSearch深入解析(十一):分页
大数据·elasticsearch·搜索引擎
旋风小飞棍
2 小时前
如何在sheel中运行spark
大数据·开发语言·scala
Eternity......
2 小时前
spark MySQL数据库配置
数据库·mysql·spark
热门推荐
01YOLOv8入门 | 重要性能衡量指标、训练结果评价及分析及影响mAP的因素【发论文关注的指标】02从零安装 LLaMA-Factory 微调 Qwen 大模型成功及所有的坑03KGG转MP3工具|非KGM文件|解密音频04DeepSeek各版本说明与优缺点分析05【SpeedAI科研小助手】2分钟极速解决知网维普重复率、AIGC率过高,一键全文降!文件格式不变,公式都保留的!06Coze扣子平台完整体验和实践(附国内和国际版对比)07组基轨迹建模 GBTM的介绍与实现(Stata 或 R)08yolov8,yolo11,yolo12 服务器训练到部署全流程 笔记09苍穹外卖面试总结10YOLOv5改进 | 添加CA注意力机制 + 增加预测层 + 更换损失函数之GIoU