5. spark 参数问题

官网地址:spark 参数

在代码中设置参数

spark-default.conf < 命令行< 代码内部设置参数, 对于一常用的参数可以放在配置文件,对于一些个性化参数则通过 命令行传递比较好。

命令行

命令行传递参数,有一些快捷方式,比如 --driver-memory 类似的参数, 其实这只是对特别常用的参数做了额外的精简化, 除此之外还有另一种最底层的传递方式那就是 --conf k=v

Spark Properties

Spark Properties 控制大多数应用程序设置,并可为每个应用程序单独配置。支持的参数可以在本文最上方的连接处找到

java 复制代码
val conf = new SparkConf()
             .setMaster("local[2]")
             .setAppName("CountingSheep")
            .set("任意支持的key","value")
val sc = new SparkContext(conf)

动态加载参数

动态加载参数,意思就是通过命令行动态的为程序设置运行参数,这也是最为灵活的一种。也是开发中最常见的,一般需要以下两个步骤。

  1. 代码中要有
    val sc = new SparkContext(new SparkConf())
    val sc = new SparkContext(conf)
    这样命令行传递的参数会被sparkConf 对象接收,自动设置。
  2. 命令行传递参数
    命令行传递有两种写法,一种是快捷方式,通过spark-submit --help 可以查到支持的快捷方式,比如spark-submit --name test, 这就将我们的程序名称设置为了test, 除此之外就是用--conf k=v 这种方式支持所有的底层参数, 比如上面的写法可以改成:
    spark-submit --conf spark.app.name=test 这两种写法是等效的。所有的快捷方式都有对应的底层方式
    再举几个例子:
    --conf spark.executor.memory=2g
    --conf spark.driver.memory=2g
    等同于
    --driver-memory 4g
    --executor-memory 2g
    文章开始的连链接就是官网支持的所有底层参数, 感兴趣的可以查看。
    下面是我常用的命令仅供参考:
java 复制代码
spark-submit 
--master yarn
-deploy-mode cluster 
--class com.boke.entry.Main 
--conf spark.shuffle.service.enabled=true   #开启shuffer
--conf spark.dynamicAllocation.enabled=False #是否开启动态资源分配
--conf spark.dynamicAllocation.minExecutors=1 #最小分配数量
--conf spark.dynamicAllocation.maxExecutors=4 #最大分配数量
--conf spark.dynamicAllocation.executorIdleTimeout=60s #超时检测
--conf spark.dynamicAllocation.initialExecutors=3 #初始化分配数量
--conf spark.driver.memory=2g #等同于--driver-memory
--conf spark.executor.memory=2g # 等同于--executor-memory
--conf spark.executor.instances=4# 等同于--num-executors
--conf spark.app.name=SparkTest # 等同于 --name SparkTest
--conf spark.yarn.jars=hdfs://xxx:9000/yarn-jars/*.jar 
/usr/local/alg/graph-algorithm-1.0-SNAPSHOT.jar 

重点说下 spark.yarn.jars 这个参数的意思是放弃读取spark安装目录下的.../jars/目录,转而读取hadoop的目录,要求将

spark安装目录中的.../jars/下的所有jar包上传到指定的hdfs目录,此目录也可以放别的依赖jar

比如jdbc的包,或者任何你代码中用到的第三方的jar,好处是jar容易管理, 打包的时候不需要将第三方的依赖jar打进去, 只需要源码包即可,

注意我的集群用的是9000端口,你可能用的是8020。

请在hdfs-site.xml 找到:

java 复制代码
   <property>
        <name>dfs.namenode.rpc-address.hdfs-cluster.nn1</name>
        <value>xxx:9000</value>
    </property>

目前大多数的集群都是8020端口

相关推荐
极光代码工作室1 天前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
JLWcai202510091 天前
铸造领域树脂砂轮|金利威多场景解决方案,20 + 配方覆盖全需求
mongodb·zookeeper·eureka·spark·rabbitmq·memcached·storm
ACP广源盛139246256731 天前
GSV9001S@ACP#1080P 级视频处理芯片,物理 AI 普及终端的高性价比选择
大数据·人工智能·分布式·嵌入式硬件·spark
木心术11 天前
AMD Ryzen AI Halo与NVIDIA RTX Spark/DGX Spark两款AI个人主机的差异和优劣势
大数据·人工智能·spark
ACP广源盛139246256732 天前
GSV5600@ACP#多接口协议转换芯片,物理 AI 便携终端的互联核心
大数据·人工智能·分布式·嵌入式硬件·spark
KaMeidebaby2 天前
卡梅德生物技术快报 | 噬菌体展示 12 肽文库在蛋白表位定位中的应用与实验数据
大数据·人工智能·架构·spark·新浪微博
ACP广源盛139246256733 天前
GSV2221@ACP#DP 1.4 MST 多屏转换芯片,物理 AI 多模态交互的视觉中枢
大数据·人工智能·嵌入式硬件·gpt·spark
想ai抽3 天前
Spark Executor 因节点内存超限被杀的分析与应对
大数据·性能优化·spark
simidagogogo3 天前
生产环境推荐系统最隐蔽的坑:Training-Serving Skew 详解与实战
算法·spark·推荐算法
ACP广源盛139246256733 天前
GSV6155@ACP#DP 1.4a 重定时器芯片,物理 AI 信号长距传输的稳定保障
大数据·人工智能·分布式·嵌入式硬件·spark