spark-sql sql on yarn --deploy-mode cluster 改造

前言

众所周知,spark-sql 不能提交到远端并且使用 cluster进行部署:

shell 复制代码
huangyichun@bigdata130023:~ # spark-sql --master yarn --deploy-mode cluster
Exception in thread "main" org.apache.spark.SparkException: Cluster deploy mode is not applicable to Spark SQL shell.
     at org.apache.spark.deploy.SparkSubmit.error(SparkSubmit.scala:972)
     at org.apache.spark.deploy.SparkSubmit.prepareSubmitEnvironment(SparkSubmit.scala:283)
     at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:898)
     at org.apache.spark.deploy.SparkSubmit.doRunMain$1(SparkSubmit.scala:180)
     at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:203)
     at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:90)
     at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:1043)
     at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:1052)
     at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

如果环境可以请使用 --deploy-mode client,如果有特殊需要请见下

这是由于spark-sql 提供了一种本地交互模式,让client端在交互模式中提供sql进行执行。但spark-sql 也有 -e-f 模式,提供用户一种 -e sqlString-f sqlFile 的方式运行,这两种方式并不需要交互模式。

所以对此本博客修改了spark-sql源码,删除了交互模式的退出判断,让spark-sql可以直接运行在 cluster中。并与源生一样,可以使用-e sqlString 以及-f sqlFile进行提交。

改造jar包获取

包可以直接下载这里(不需要积分,请好评),或者github查看源码更改spark版本

提供的包为 spark 3.2.2 版本,scala 2.12版本;与hadoop版本无关。

github地址: https://github.com/ChunChunWeb/spark-sql-for-cluster

运行方式

可以通过 shell 命令直接提交:

shell 复制代码
spark-submit --class org.apache.spark.sql.hive.cluster.SparkSqlCliClusterDriver  \
--master yarn \
--deploy-mode cluster \
my-spark-sql-cluster.jar 
相关推荐
蚁巡信息巡查系统3 小时前
网站信息发布再巡查机制怎么建立?
大数据·人工智能·数据挖掘·内容运营
云边云科技_云网融合4 小时前
AIoT智能物联网平台:架构解析与边缘应用新图景
大数据·网络·人工智能·安全
青岛前景互联信息技术有限公司4 小时前
政策支撑:应急部推动化工园区安全风险智能化管控平台有效应用!
大数据·人工智能·安全
才盛智能科技4 小时前
歪麦霸王餐&元K(才盛云)签订战略合作
大数据·人工智能·物联网·自助ktv系统·才盛云
WZgold1415 小时前
黄金突然跳水!是技术调整还是趋势反转?
大数据·经验分享
开源能源管理系统5 小时前
开源筑基,智领零碳:MyEMS 赋能零碳工厂全周期转型新实践
大数据·开源·能源·能源管理系统·零碳工厂
金融小师妹5 小时前
AI算法与多因子模型驱动:金价获利了结涌现后的高位下跌态势
大数据·人工智能·深度学习·机器学习
samFuB5 小时前
【数据集】上市公司-客户及供应商集中度数据(2000-2024年)
大数据
说私域5 小时前
微商企业未来迭代的核心方向与多元探索——以链动2+1模式AI智能名片商城小程序为核心支撑
大数据·人工智能·小程序·流量运营·私域运营
invicinble6 小时前
一文了解git
大数据·git·elasticsearch