Spark 安装教程与使用指南

一、安装前准备

在开始安装 Spark 前，需确认已正确配置 Java 开发环境以及 Hadoop 集群（如果计划运行分布式模式）。以下是具体步骤：

检查 JDK 版本 确保系统中已安装兼容的 JDK 版本。可以通过以下命令验证：
复制代码
```
java -version
```
如果未安装或版本不匹配，则需要先完成 JDK 的安装并设置 JAVA_HOME 环境变量1。

获取 Spark 安装包 下载适合当前系统的 Spark 发行版压缩包，并解压到目标路径下。例如：

复制代码

wget https://archive.apache.org/dist/spark/spark-3.x.y/spark-3.x.y-bin-hadoop3.tgz
tar -zxvf spark-3.x.y-bin-hadoop3.tgz
mv spark-3.x.y /usr/local/spark

配置环境变量 编辑 .bashrc 或者 /etc/profile 文件，添加如下内容以定义 SPARK_HOME 和 PATH 变量：
复制代码
```
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
source ~/.bashrc
```
修改配置文件 进入 $SPARK_HOME/conf/ 目录，复制模板文件并根据需求调整参数。例如：
- 复制默认配置文件作为基础：
  复制代码
```
cp spark-env.sh.template spark-env.sh
cp slaves.template slaves
```
- 在 spark-env.sh 中加入必要的 JVM 参数和其他选项：
  复制代码
```
export JAVA_HOME=/path/to/java_home
export PYSPARK_PYTHON=python3
export SPARK_MASTER_HOST=<your_master_host>
```
配置从节点列表 使用 vi $SPARK_HOME/conf/slaves 添加所有工作节点的主机名或者 IP 地址4。

二、启动 Spark 集群

完成以上准备工作之后，可以按照下列方式操作来初始化 Spark 集群及其组件服务状态监控界面。

重启 Hadoop 集群 若依赖于 HDFS 存储数据源，请确保其正常运作后再继续下一步骤。
启动 Spark Master 和 Worker 节点 执行脚本来开启整个集群的服务进程：
复制代码
```
start-all.sh
```
查看 Spark Web UI 默认情况下可通过浏览器访问 http://<master-ip>:8080 来观察集群健康状况及作业调度详情1。
测试交互式 shell 功能 启动 Scala REPL 工具用于快速验证基本功能是否可用：
复制代码
```
./bin/spark-shell --master yarn
```

三、提交应用程序至 Spark 平台

无论是基于 Scala、Java 还是 Python 构建的应用都可以借助统一接口轻松部署到生产环境中去执行大规模计算任务。

对于常规 jar 包形式的任务分发可采用如下语法结构传递必要参数给框架引擎处理逻辑部分；而对于 PySpark 类型则更为简洁明了一些只需指定期望入口即可2:

复制代码

# 提交Scala应用
spark-submit \
--class com.example.MainClass \
--master yarn \
/path/to/application.jar arg1 arg2

# 提交Python脚本
spark-submit \
--master yarn \
/path/to/python_script.py param1 param2