Mac安装Spark

下载并安装 Spark

Step 1: Spark需要Java运行环境,需要先安装JDK

Step 2: 下载 Spark

复制代码
•	打开浏览器,访问 Apache Spark 官方网站。
•	选择以下选项:
•	Spark 版本:选择最新稳定版本 (例如 3.5.0)。
•	Hadoop 版本:选择 Pre-built for Apache Hadoop (已有 Hadoop 构建版本)。
•	点击 Download Spark 下载压缩包。

Step 3: 解压 Spark 压缩包

复制代码
•	打开终端,进入下载目录并解压 Spark 压缩文件:
shell 复制代码
cd ~/Downloads
tar -xvf spark-<version>-bin-hadoop<version>.tgz

将解压后的目录移动到一个合适的位置,比如 /usr/local/spark:

shell 复制代码
sudo mv spark-<version>-bin-hadoop<version> /usr/local/spark

Step 4: 配置环境变量

复制代码
•	编辑你的 .bash_profile 或 .zshrc 文件(取决于你使用的是 Bash 还是 Zsh)来添加 Spark 环境变量。

打开终端,输入:

shell 复制代码
nano ~/.zshrc  # 或者 ~/.bash_profile

添加以下内容:

shell 复制代码
export SPARK_HOME=/usr/local/spark
export PATH=$SPARK_HOME/bin:$PATH
复制代码
•	保存文件并重新加载配置:
shell 复制代码
source ~/.zshrc  # 或者 ~/.bash_profile

运行 Spark 和 PySpark

Step 1: 启动 Spark Shell

复制代码
•	打开终端,输入以下命令以启动 Spark Shell:
shell 复制代码
spark-shell

这将启动一个 Scala 交互式的 Spark Shell。

Step 2: 启动 PySpark

复制代码
•	如果你要使用 Python 进行编程,可以启动 PySpark:
shell 复制代码
pyspark

这将启动一个 Python 交互式的 Spark Shell。你可以在这里使用 Spark 的 Python API。

使用 PySpark 编写和运行脚本

Step 1: 编写 PySpark 脚本

复制代码
•	你可以使用任何文本编辑器编写 PySpark 脚本。例如,新建一个 example.py 文件:
python 复制代码
from pyspark.sql import SparkSession

# 创建 Spark 会话
spark = SparkSession.builder.appName("example").getOrCreate()

# 读取 JSON 文件
df = spark.read.json("path/to/your/file.json")

# 打印 schema
df.printSchema()

# 显示前几行数据
df.show()

Step 2: 运行 PySpark 脚本

复制代码
•	在终端中运行 PySpark 脚本,确保你的环境变量配置正确:
shell 复制代码
spark-submit example.py
相关推荐
猫头虎5 小时前
GoLand 2025.3 最新变化:值得更新吗?
ide·windows·macos·pycharm·编辑器·intellij-idea·idea
_可乐无糖10 小时前
内网穿透工具使用指南:ngrok 和 cpolar
安全·macos·云计算
不爱吃糖的程序媛10 小时前
鸿蒙PC命令行开发 macOS 上解决 pkg-config 命令未安装的问题
macos·华为·harmonyos
淘气淘的宝宝12 小时前
MAC intel 迁移至M4后brew及iterm2配置
macos
yumgpkpm12 小时前
Cloudera CDP7、CDH5、CDH6 在华为鲲鹏 ARM 麒麟KylinOS做到无缝切换平缓迁移过程
大数据·arm开发·华为·flink·spark·kafka·cloudera
不爱吃糖的程序媛12 小时前
解决鸿蒙PC命令行编译 macOS 上 cp 命令参数冲突问题
macos·harmonyos·策略模式
青云交12 小时前
Java 大视界 -- Java+Spark 构建企业级用户画像平台:从数据采集到标签输出全流程(437)
java·开发语言·spark·hbase 优化·企业级用户画像·标签计算·高并发查询
Bruce_Liuxiaowei12 小时前
Mac_Linux 查询网站IP地址:4个核心命令详解
linux·tcp/ip·macos
qq_124987075312 小时前
基于spark的新闻文本分类系统(源码+论文+部署+安装)
大数据·分类·数据挖掘·spark
逐梦苍穹13 小时前
ClamAV在macOS上的离线查杀与定时扫描实战(含clamd加速)
人工智能·安全·macos·策略模式·杀毒