用docker 配置scala spark环境

要使用Docker配置Scala和Spark环境,您可以按照以下步骤进行操作。以下是一个基本的示例,您可能需要根据您的具体需求进行调整。

安装Docker:
  • 在您的系统上安装Docker。您可以从Docker官方网站下载并安装适用于您操作系统的版本。
创建Dockerfile:
  • 在您的项目目录中创建一个名为 Dockerfile 的文件,并添加以下内容:

    bash 复制代码
    FROM openjdk:8
    
    # 设置Scala版本
    ENV SCALA_VERSION 2.12.15
    
    # 安装Scala
    RUN wget --quiet www.scala-lang.org/files/archive/scala-$SCALA_VERSION.deb && \
        dpkg -i scala-$SCALA_VERSION.deb && \
        rm scala-$SCALA_VERSION.deb && \
        apt-get update && \
        apt-get install scala -y
    
    # 设置Spark版本
    ENV SPARK_VERSION 3.2.0
    ENV HADOOP_VERSION 3.2
    
    # 安装Spark
    RUN wget --quiet https://archive.apache.org/dist/spark/spark-$SPARK_VERSION/spark-$SPARK_VERSION-bin-hadoop$HADOOP_VERSION.tgz && \
        tar -xvzf spark-$SPARK_VERSION-bin-hadoop$HADOOP_VERSION.tgz && \
        mv spark-$SPARK_VERSION-bin-hadoop$HADOOP_VERSION /opt/spark && \
        rm spark-$SPARK_VERSION-bin-hadoop$HADOOP_VERSION.tgz
    
    # 设置环境变量
    ENV SPARK_HOME /opt/spark
    ENV PATH $PATH:$SPARK_HOME/bin
    
    # 清理APT缓存
    RUN apt-get clean
    
    # 指定工作目录
    WORKDIR /app
构建Docker镜像:
  • 在项目目录中运行以下命令构建Docker镜像:

    docker build -t my-scala-spark-image .

创建Spark应用程序:
  • 在项目目录中创建您的Scala Spark应用程序,例如 MySparkApp.scala

    Scala 复制代码
    // MySparkApp.scala
    import org.apache.spark.SparkConf
    import org.apache.spark.sql.SparkSession
    
    object MySparkApp {
      def main(args: Array[String]): Unit = {
        val conf = new SparkConf().setAppName("MySparkApp")
        val spark = SparkSession.builder.config(conf).getOrCreate()
    
        // Your Spark application logic goes here
    
        spark.stop()
      }
    }
怎样编译打包出MySparkApp.jar

方法一:使用sbt

  • 安装sbt:

  • 在您的系统上安装sbt。您可以从sbt官方网站获取安装说明。

  • 创建sbt项目:

    在项目目录中创建一个名为 build.sbt 的文件,其中包含您的项目配置和依赖关系。
    *

    bash 复制代码
    name := "MySparkApp"
    version := "1.0"
    scalaVersion := "2.12.15"
    
    libraryDependencies += "org.apache.spark" %% "spark-core" % "3.2.0"

    创建项目目录结构:

    • 在项目目录中创建一个名为 src/main/scala 的目录,并将您的Scala Spark应用程序文件 MySparkApp.scala 放入其中。
    • 编译和打包
    • 打开终端,进入项目目录,并运行以下命令编译和打包应用程序: sbt assembly 这将在 target/scala-2.12 目录下生成一个包含所有依赖项的JAR文件,通常具有类似于 MySparkApp-assembly-1.0.jar 的名称。

方法二:使用命令行

bash 复制代码
#使用scalac命令将Scala源代码编译为字节码文件。
scalac -classpath "/path/to/spark/jars/*" MySparkApp.scala
#使用jar命令将编译的字节码文件打包成JAR文件。
jar cf MySparkApp.jar MySparkApp*.class
6.运行Spark应用程序:

使用前面提到的Docker命令,在Docker容器中运行您的Spark应用程序:

  • docker run -it --rm -v $(pwd):/app my-scala-spark-image /opt/spark/bin/spark-submit --class MySparkApp --master local[2] /app/MySparkApp.jar
相关推荐
SPC的存折1 小时前
6、Docker常用配置
运维·docker·容器
图图玩ai1 小时前
SSH 命令管理工具怎么选?从命令收藏到批量执行一次讲清
linux·nginx·docker·ai·程序员·ssh·可视化·gmssh·批量命令执行
SPC的存折3 小时前
4、Docker私有仓库
运维·docker·容器
齐潇宇3 小时前
Docker概述与安装
linux·运维·docker·容器
SilentSamsara4 小时前
存储卷体系:EmptyDir/HostPath/PV/PVC/StorageClass 的选型决策树
服务器·微服务·云原生·容器·架构·kubernetes·k8s
亚空间仓鼠4 小时前
Docker 容器技术入门与实践 (二):Dockerfile文件
运维·docker·容器
亚空间仓鼠5 小时前
Docker 容器技术入门与实践 (一):命令与镜像、容器管理
运维·docker·容器
王的宝库5 小时前
【K8s】集群安全机制(二):授权(Authorization)详解与实战
学习·云原生·容器·kubernetes
henry_20165 小时前
让 AI 编程助手拥有“记忆“:Mem0 OpenMemory MCP 部署到 K8s 全记录(踩坑 + 解决方案)
人工智能·ai·容器·kubernetes·kiro
东北甜妹5 小时前
Docker 多阶段构建
运维·docker·容器