spark-submit 常用方式

1 、local 模式提交

在本地机器上使用2个CPU核心,以并行方式运行名为 spark-python.py 的 PySpark 应用程序

复制代码
spark-submit --master local[2] spark-python.py

更完整的提交命令示例

复制代码
spark-submit \
  --master local[2] \
  --name "MySparkApp" \
  --executor-memory 2g \
  --driver-memory 1g \
  spark-python.py
2、集群模式提交

spark-python.py 这个 PySpark 应用程序提交到位于 node03:7077 的 Spark 集群上,在多个工作节点上分布式并行执行"

复制代码
spark-submit --master spark://node03:7077 spark-python.py

带更多配置的集群提交

复制代码
spark-submit \
  --master spark://node03:7077 \
  --executor-memory 2g \
  --total-executor-cores 4 \
  --name "ProductionJob" \
  spark-python.py
相关推荐
little_xianzhong3 小时前
把一个本地项目导入gitee创建的仓库中
大数据·elasticsearch·gitee
金融小师妹5 小时前
基于机器学习框架的上周行情复盘:非农数据与美联储政策信号的AI驱动解析
大数据·人工智能·深度学习·1024程序员节
Leo.yuan5 小时前
2小时,我搭了一套物流分析看板
大数据·人工智能·金融·企业数字化·现金流
sheji34166 小时前
【开题答辩全过程】以 基于Spark的药品库存可视化分析系统为例,包含答辩的问题和答案
大数据·分布式·spark
Ace_31750887766 小时前
微店商品详情接口深度挖掘:从多接口联动到数据全息重构
大数据·python·重构
A尘埃6 小时前
Spark基于内存计算的数据处理
大数据·分布式·spark
ComPDFKit6 小时前
Salesforce原生PDF编辑的重要性:效率、合规性与用户体验
大数据·pdf·ux
橙色云-智橙协同研发6 小时前
【PLM实施专家宝典】离散制造企业需求管理与全生命周期追溯体系构建方案:打造研发的“精准导航系统”
大数据·云原生·云计算·解决方案·数字化转型·plm·国产plm
sunxunyong6 小时前
Workload Group和Resource Group两种资源管理方案协同
大数据·数据库