spark-sql sql on yarn --deploy-mode cluster 改造

前言

众所周知,spark-sql 不能提交到远端并且使用 cluster进行部署:

shell 复制代码
huangyichun@bigdata130023:~ # spark-sql --master yarn --deploy-mode cluster
Exception in thread "main" org.apache.spark.SparkException: Cluster deploy mode is not applicable to Spark SQL shell.
     at org.apache.spark.deploy.SparkSubmit.error(SparkSubmit.scala:972)
     at org.apache.spark.deploy.SparkSubmit.prepareSubmitEnvironment(SparkSubmit.scala:283)
     at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:898)
     at org.apache.spark.deploy.SparkSubmit.doRunMain$1(SparkSubmit.scala:180)
     at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:203)
     at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:90)
     at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:1043)
     at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:1052)
     at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

如果环境可以请使用 --deploy-mode client,如果有特殊需要请见下

这是由于spark-sql 提供了一种本地交互模式,让client端在交互模式中提供sql进行执行。但spark-sql 也有 -e-f 模式,提供用户一种 -e sqlString-f sqlFile 的方式运行,这两种方式并不需要交互模式。

所以对此本博客修改了spark-sql源码,删除了交互模式的退出判断,让spark-sql可以直接运行在 cluster中。并与源生一样,可以使用-e sqlString 以及-f sqlFile进行提交。

改造jar包获取

包可以直接下载这里(不需要积分,请好评),或者github查看源码更改spark版本

提供的包为 spark 3.2.2 版本,scala 2.12版本;与hadoop版本无关。

github地址: https://github.com/ChunChunWeb/spark-sql-for-cluster

运行方式

可以通过 shell 命令直接提交:

shell 复制代码
spark-submit --class org.apache.spark.sql.hive.cluster.SparkSqlCliClusterDriver  \
--master yarn \
--deploy-mode cluster \
my-spark-sql-cluster.jar 
相关推荐
海豚调度16 分钟前
GSoC 成果公布!印度开发者为 DolphinScheduler 引入通用 OIDC 认证,实现无缝安全访问
大数据·开源·安全认证·oidc·大数据调度·apachedolphinscheduler
想ai抽23 分钟前
大数据计算引擎-从源码看Spark AQE对于倾斜的处理
大数据·数据仓库·spark
在未来等你42 分钟前
Elasticsearch面试精讲 Day 30:Elasticsearch面试真题解析与答题技巧
大数据·分布式·elasticsearch·搜索引擎·面试
Micra5201 小时前
8款企业微信SCRM工具功能对比分析
大数据·经验分享
培培说证1 小时前
2025年大专计算机技术专业就业方向!
大数据
在未来等你1 小时前
Elasticsearch面试精讲 Day 27:备份恢复与灾难恢复
大数据·分布式·elasticsearch·搜索引擎·面试
涛思数据(TDengine)2 小时前
TDengine TSDB 3.3.8.0 上线:SMA、TLS、TDgpt、taosX、taosgen 一次全进化
大数据·数据库·时序数据库·tdengine
研究司马懿2 小时前
【GitOps】Argo CD app of apps
大数据·开发语言·elasticsearch·搜索引擎·云原生·argocd·gitops
qqxhb2 小时前
系统架构设计师备考第49天——数字孪生体&云计算&大数据技术
大数据·系统架构·云计算·saas·paas·iaas·数字孪生体
盖雅工场2 小时前
企业用工成本高、留人难?零工管家以数字化管理实现精准控本与人才留存
大数据