Ubuntu上安装Apache Spark

在Ubuntu上安装Apache Spark的步骤如下:

1. 安装Java

Spark是用Scala编写的,并且依赖Java。因此,首先需要安装Java。

安装OpenJDK 8(或更高版本)

执行以下命令安装OpenJDK:

bash 复制代码
sudo apt update
sudo apt install openjdk-8-jdk

你可以通过运行以下命令检查Java版本,确保安装成功:

bash 复制代码
java -version

输出应该显示Java版本信息,例如:

bash 复制代码
openjdk version "1.8.0_292"

如果没有安装Java 8,你可以选择其他版本(例如OpenJDK 11或OpenJDK 17),但Spark推荐使用Java 8。

2. 安装Scala(可选)

Spark使用Scala作为其默认编程语言,因此最好安装Scala。不过,如果你打算使用PySpark(Python API)或Spark的其他语言API,Scala并不是必须的。

如果你想安装Scala,可以执行以下命令:

bash 复制代码
sudo apt install scala

3. 下载并安装Spark

  1. 访问Apache Spark官网并选择你想要的Spark版本。这里选择一个预编译版本(例如,Spark 3.x版本),并选择与Hadoop兼容的版本。如果你不打算使用Hadoop,可以选择不带Hadoop的版本。

  2. 使用wget命令下载Spark:

bash 复制代码
wget https://dlcdn.apache.org/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.2.tgz

(请确保根据实际版本修改URL)

  1. 解压下载的文件:
bash 复制代码
tar -xvzf spark-3.3.1-bin-hadoop3.2.tgz
  1. 将Spark移动到一个常用目录,比如/opt
bash 复制代码
sudo mv spark-3.3.1-bin-hadoop3.2 /opt/spark

4. 配置环境变量

为确保可以从命令行使用Spark,你需要设置环境变量。

  1. 编辑~/.bashrc文件:
bash 复制代码
nano ~/.bashrc
  1. 添加以下行到文件的末尾:
bash 复制代码
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export PYSPARK_PYTHON=python3
  1. 使更改生效:
bash 复制代码
source ~/.bashrc

5. 配置Spark(可选)

如果需要,您可以进一步配置Spark。Spark的默认配置文件通常位于$SPARK_HOME/conf目录下,您可以复制一份模板配置文件并进行自定义配置。

  1. 复制模板配置文件:
bash 复制代码
cd $SPARK_HOME/conf
cp spark-env.sh.template spark-env.sh
  1. 编辑$SPARK_HOME/conf/spark-env.sh,根据需要配置Spark环境,例如设置Java和Hadoop的路径。
bash 复制代码
nano $SPARK_HOME/conf/spark-env.sh

添加或修改如下内容:

bash 复制代码
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export SPARK_MASTER_HOST=localhost

6. 启动Spark

Spark包含两个主要进程:Spark Master和Spark Worker。你可以通过start-master.shstart-worker.sh启动它们。

  1. 启动Spark Master:
bash 复制代码
$SPARK_HOME/sbin/start-master.sh
  1. 启动Spark Worker(默认连接到Master):
bash 复制代码
$SPARK_HOME/sbin/start-worker.sh spark://localhost:7077

此时,Spark Master会在localhost:8080上启动Web UI,你可以在浏览器中访问它查看集群状态。

7. 启动Spark Shell

Spark还提供了交互式的命令行工具。如果你想使用Scala Shell,可以运行以下命令:

bash 复制代码
$SPARK_HOME/bin/spark-shell

如果你想使用Python(PySpark),可以运行:

bash 复制代码
$SPARK_HOME/bin/pyspark

8. 配置Spark为系统服务(可选)

如果你希望Spark在启动时自动启动,可以配置Spark作为系统服务。下面是基本的配置步骤。

  1. 创建一个新的systemd服务文件:
bash 复制代码
sudo nano /etc/systemd/system/spark.service
  1. 在文件中添加以下内容:
bash 复制代码
[Unit]
Description=Apache Spark
After=network.target

[Service]
Type=simple
User=your_user
ExecStart=/opt/spark/sbin/start-all.sh
ExecStop=/opt/spark/sbin/stop-all.sh
Restart=on-failure

[Install]
WantedBy=multi-user.target
  1. 重新加载systemd服务,并启用它:
bash 复制代码
sudo systemctl daemon-reload
sudo systemctl enable spark
sudo systemctl start spark

9. 检查Spark安装是否成功

在浏览器中访问Spark Master的Web UI:

复制代码
http://localhost:8080

如果可以看到Spark Master的状态页面,说明Spark安装成功。

总结

现在你已经在Ubuntu上成功安装并配置了Apache Spark。你可以通过Spark Shell、PySpark或提交Spark作业来开始使用Spark。如果你需要运行集群模式,建议设置多个Spark节点。

相关推荐
藥瓿亭11 小时前
K8S认证|CKS题库+答案| 3. 默认网络策略
运维·ubuntu·docker·云原生·容器·kubernetes·cks
Gaoithe11 小时前
ubuntu 端口复用
linux·运维·ubuntu
Mike_66615 小时前
win10安装WSL2、Ubuntu24.04
windows·ubuntu·wsl2
SilentCodeY15 小时前
Ubuntu 系统通过防火墙管控 Docker 容器
linux·安全·ubuntu·系统防火墙
超级土豆粉1 天前
从0到1写一个适用于Node.js的User Agent生成库
linux·ubuntu·node.js
qq_408413391 天前
spark 执行 hive sql数据丢失
hive·sql·spark
后端码匠1 天前
Spark 单机模式部署与启动
大数据·分布式·spark
qq_463944861 天前
【Spark征服之路-2.3-Spark运行架构】
大数据·架构·spark
抠脚学代码1 天前
Ubuntu18.6 学习QT问题记录以及虚拟机安装Ubuntu后的设置
qt·学习·ubuntu
Sapphire~1 天前
Linux-07 ubuntu 的 chrome 启动不了
linux·chrome·ubuntu