官网下载spark
解压就好
本地配置环境变量
配置环境变量(系统环境变量)
- 新增 SPARK_HOME
变量名:SPARK_HOME
变量值:F:\class\spark\Spark_env\spark-3.4.4-bin-hadoop3
配置 PATH,新增如下:
%SPARK_HOME%\bin
创建虚拟环境
conda create -n spark python=3.10
激活虚拟环境
conda activate spark
然后在spark环境下安装 pyspark
然后运行下面的python代码就跑通了
bash
import os
from pyspark.sql import SparkSession
# 设置 PYSPARK_PYTHON 和 PYSPARK_DRIVER_PYTHON 为当前环境的 Python 路径
os.environ['PYSPARK_PYTHON'] = r'E:\download_ware\conda\envs\spark\python.exe'
os.environ['PYSPARK_DRIVER_PYTHON'] = r'E:\download_ware\conda\envs\spark\python.exe'
# 创建 Spark 会话
spark = SparkSession.builder \
.appName("Simple App") \
.config("spark.sql.shuffle.partitions", "4") \
.config("spark.default.parallelism", "4") \
.getOrCreate()
# 设置日志级别
spark.sparkContext.setLogLevel("DEBUG")
# 打印日志信息,确认 Spark 会话已经成功创建
print("Spark session created successfully!")
# 创建一个简单的 DataFrame
data = [("Alice", 1), ("Bob", 2), ("Cathy", 3)]
columns = ["Name", "Value"]
df = spark.createDataFrame(data, columns)
# 显示 DataFrame 内容
print("Displaying DataFrame:")
df.show()
# 关闭 Spark 会话
spark.stop()
显示如下就是成功了