spark jar依赖顺序

1. 执行顺序

  1. spark-submit --config "spark.{driver/executor}.extraClassPath=someJar"提交的依赖包
  2. SystemClasspath -- Spark安装时候提供的依赖包
  3. spark-submit --jars 提交的依赖包

2. 依赖解释

  1. 提交任务时指定的依赖
    Spark-submit --config "spark.{driver/executor}.extraClassPath=someJar"提交的依赖包
    如指定driver或者executor上的包使用什么包,那个path是jar包的路径

    复制代码
    --conf spark.driver.extraClassPath=/root/.m2/repository/com/google/code/gson/gson/2.10.1/gson-2.10.1.jar \
    --conf spark.executor.extraClassPath=/root/.m2/repository/com/google/code/gson/gson/2.10.1/gson-2.10.1.jar \
  2. SystemClasspath
    Spark安装时候提供的依赖包--spark环境的版本
    如果只是在pom文件里面指定了要用什么版本,但是SystemClasspath 和指定版本不一样且没有配置spark.driver.extraClassPath时,会优先使用SystemClasspath

Spark-submit --jars 提交的依赖包

如果环境没有依赖的且不想打包到自己的项目jar里面时,可以使用该方式

如:

--jars /root/.m2/repository/com/google/code/gson/gson/2.10.1/gson-2.10.1.jar \

3. 完整的提交示例

复制代码
su hadoop -c "/usr/local/service/spark/bin/spark-submit \
--class SayloRecUserStaticInfoTable \
--name 'SayloRecUserStaticInfoTable $DATE' \
--jars $PROJECT_ROOT/lib/protobuf-java-3.6.1.jar \
--conf spark.driver.extraClassPath=/root/.m2/repository/com/google/code/gson/gson/2.10.1/gson-2.10.1.jar \
--conf spark.executor.extraClassPath=/root/.m2/repository/com/google/code/gson/gson/2.10.1/gson-2.10.1.jar \
--conf spark.driver.extraClassPath=$PROJECT_ROOT/lib/protobuf-java-3.6.1.jar \
--conf spark.executor.extraClassPath=$PROJECT_ROOT/lib/protobuf-java-3.6.1.jar \
--conf spark.sql.broadcastTimeout=7200 \
--conf spark.executor.cores=4 \
--conf spark.executor.memory=2G \
--conf spark.local.dir=/data/tmp \
--conf spark.executor.local.dir=/tmp \
--num-executors 2 \
--master yarn \
--deploy-mode cluster \
$PROJECT_ROOT/target/saylo_rec_data_offline_v2-1.0.0-jar-with-dependencies.jar.jar \
dst_table=saylo.t_saylo_user_test \
date=\"$DATE\""

参考

相关推荐
浊酒南街3 小时前
SUBSTRING_INDEX 函数介绍
sql·spark
鸿乃江边鸟4 小时前
Spark datafusion comet向量化插件CometPlugin
大数据·spark·native
oMcLin5 小时前
如何在 Debian 11 上通过构建大数据湖,使用 Apache Spark 加速电商平台的数据分析与实时推荐引擎
spark·debian·apache
stella·6 小时前
后端二进制文件,现代前端如何下载
前端·ajax·状态模式·axios·request·buffer·download
半壶清水6 小时前
如何在IDEA中将JavaFX项目打包EXE文件
java·windows·intellij-idea·jar
Lansonli7 小时前
大数据Spark(七十六):Action行动算子reduce和take、takeSample使用案例
大数据·分布式·spark
鸿乃江边鸟8 小时前
Apache Arrow的零拷贝是指什么
spark·零拷贝·native·arrow
magic_kid_20101 天前
Flink on YARN 依赖/JAR 包问题排查指南
flink·jar·包冲突
Light601 天前
智链护航,数档永存:基于领码SPARK平台构建下一代AI+区块链档案系统解决方案
人工智能·spark·区块链
深蓝电商API1 天前
Scrapy爬取Ajax动态加载页面三种实用方法
爬虫·python·scrapy·ajax