使用java远程提交spark任务到yarn集群

使用java远程提交spark任务到yarn集群

背景

公司需求中,需要用到java远程提交spark任务,方式还是用yarn提供的方法提交任务。如果你也想远程提交flink任务,请看这篇文章使用java远程提交flink任务到yarn集群

环境准备

大数据集群,只要有hadoop就行

正式开始

1. 打包spark jars目录下所有jar包,上传到hdfs

shell 复制代码
cd spark-3.4.3-bin-hadoop3/jars
zip -q -r __spark_libs__.zip *
hdfs dfs -put __spark_libs__.zip /

2. 上传你编译好的spark代码

我这里为了方便测试,直接spark提供的案例代码

复制代码
hdfs dfs -put spark-examples_2.12-3.4.3.jar /

编写java代码,远程提交任务

java 复制代码
package com.test;

import org.apache.spark.SparkConf;
import org.apache.spark.deploy.yarn.Client;
import org.apache.spark.deploy.yarn.ClientArguments;


public class SparkSubmit {
    private static final String SPARK_YARN_QUEUE_KEY = "spark.yarn.queue";
    private static final String DEFAULT_SPARK_YARN_QUEUE_VALUE = "default";

    public static void main(String[] args) {
        dslSubmit();
    }

    public static String dslSubmit()  {
        System.setProperty("HADOOP_USER_NAME","root");
        String[] runArgs = new String[]{
                "--class", "org.apache.spark.examples.JavaSparkPi",
                "--jar", "hdfs://node1.itcast.cn/spark-examples_2.12-3.4.3.jar",
                "--arg", "-m",
                "--arg", "yarn",
                "--arg", "-d"
        };
        SparkConf sparkConf = new SparkConf();
        sparkConf.set("spark.yarn.scheduler.heartbeat.interval-ms", "1000");
        sparkConf.set("spark.submit.deployMode", "cluster");
        sparkConf.set("spark.yarn.preserve.staging.files", "false");
        sparkConf.set("mapreduce.app-submission.cross-platform", "true");
        sparkConf.set("spark.yarn.isHadoopProvided", "true");
        sparkConf.set("spark.yarn.archive", "hdfs://node1.itcast.cn/__spark_libs__.zip");
        sparkConf.set("spark.hadoop.yarn.resourcemanager.hostname", "node1");
        sparkConf.set("spark.hadoop.yarn.resourcemanager.address",
                "node1:8032");
        sparkConf
                .set("spark.hadoop.yarn.resourcemanager.scheduler.address",
                        "node1:8030");
//        sparkConf.set("spark.yarn.jars", sparkYarnJars);
//        sparkConf.set("spark.yarn.stagingDir", sparkYarnStagingDir);
//        sparkConf.set("spark.files", sparkFiles);
        sparkConf.set("spark.hadoop.mapreduce.framework.name", "yarn");
        sparkConf.set("fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSystem");

        sparkConf.set(SPARK_YARN_QUEUE_KEY, DEFAULT_SPARK_YARN_QUEUE_VALUE);
        try {
            ClientArguments cArgs = new ClientArguments(runArgs);
            Client client = new Client(cArgs, sparkConf, null);
            client.submitApplication();
            String applicationId = client.getApplicationId().toString();
            System.out.println(applicationId);
            return applicationId.toString();
        } catch (Exception e) {
            e.printStackTrace();
            return null;

        }
    }

}

最后就可以去yarn里面看执行情况了

相关推荐
航Hang*6 分钟前
C PRIMER PLUS——第6-2节:二维数组与多维数组
c语言·开发语言·经验分享·程序人生·算法·学习方法·visual studio
带刺的坐椅10 分钟前
FastMCP(python)和 SolonMCP(java)的体验比较(不能说一样,但真的很像)
java·python·solon·mcp·fastmcp
易只轻松熊22 分钟前
C++(1):整数常量
开发语言·c++
一勺菠萝丶26 分钟前
深入浅出:Spring Boot 中 RestTemplate 的完整使用指南
java·spring boot·后端
努力的搬砖人.30 分钟前
Java 线程池原理
java·开发语言
Dovis(誓平步青云)38 分钟前
精讲C++四大核心特性:内联函数加速原理、auto智能推导、范围for循环与空指针进阶
c语言·开发语言·c++·笔记·算法·学习方法
passionSnail1 小时前
《用MATLAB玩转游戏开发》Flappy Bird:小鸟飞行大战MATLAB趣味实现
开发语言·matlab
jz_ddk1 小时前
[学习]RTKLib详解:convkml.c、convrnx.c与geoid.c
c语言·开发语言·学习
stevenzqzq1 小时前
kotlin flow防抖
开发语言·kotlin·flow
有梦想的攻城狮1 小时前
SpEL(Spring Expression Language)使用详解
java·后端·spring·spel