下载并安装 Spark
Step 1: Spark需要Java运行环境,需要先安装JDK
Step 2: 下载 Spark
• 打开浏览器,访问 Apache Spark 官方网站。
• 选择以下选项:
• Spark 版本:选择最新稳定版本 (例如 3.5.0)。
• Hadoop 版本:选择 Pre-built for Apache Hadoop (已有 Hadoop 构建版本)。
• 点击 Download Spark 下载压缩包。
Step 3: 解压 Spark 压缩包
• 打开终端,进入下载目录并解压 Spark 压缩文件:
shell
cd ~/Downloads
tar -xvf spark-<version>-bin-hadoop<version>.tgz
将解压后的目录移动到一个合适的位置,比如 /usr/local/spark:
shell
sudo mv spark-<version>-bin-hadoop<version> /usr/local/spark
Step 4: 配置环境变量
• 编辑你的 .bash_profile 或 .zshrc 文件(取决于你使用的是 Bash 还是 Zsh)来添加 Spark 环境变量。
打开终端,输入:
shell
nano ~/.zshrc # 或者 ~/.bash_profile
添加以下内容:
shell
export SPARK_HOME=/usr/local/spark
export PATH=$SPARK_HOME/bin:$PATH
• 保存文件并重新加载配置:
shell
source ~/.zshrc # 或者 ~/.bash_profile
运行 Spark 和 PySpark
Step 1: 启动 Spark Shell
• 打开终端,输入以下命令以启动 Spark Shell:
shell
spark-shell
这将启动一个 Scala 交互式的 Spark Shell。
Step 2: 启动 PySpark
• 如果你要使用 Python 进行编程,可以启动 PySpark:
shell
pyspark
这将启动一个 Python 交互式的 Spark Shell。你可以在这里使用 Spark 的 Python API。
使用 PySpark 编写和运行脚本
Step 1: 编写 PySpark 脚本
• 你可以使用任何文本编辑器编写 PySpark 脚本。例如,新建一个 example.py 文件:
python
from pyspark.sql import SparkSession
# 创建 Spark 会话
spark = SparkSession.builder.appName("example").getOrCreate()
# 读取 JSON 文件
df = spark.read.json("path/to/your/file.json")
# 打印 schema
df.printSchema()
# 显示前几行数据
df.show()
Step 2: 运行 PySpark 脚本
• 在终端中运行 PySpark 脚本,确保你的环境变量配置正确:
shell
spark-submit example.py