Anaconda中配置Pyspark的Spark开发环境

BD_Marathon2025-05-02 13:26

Anaconda中配置Pyspark的Spark开发环境

1.在控制台中测试ipython是否启动正常

anaconda正常安装

这里先检查ipython是否正常，cmd命令窗口，输入，ipython，如下就证明可用。

2.安装好Java

测试

3.安装Spark并配置环境变量

spark 官网地址：https://spark.apache.org/downloads.html

选择需要的版本后安装

解压：

配置环境变量

添加到Path:

4.PySpark配置

增加：

python 复制代码

%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark;

5.修改spark\conf下的spark-env文件

这里路径，写自己的anaconda路径

export PYSPARK_PYTHON=/C:/ProgramData/anaconda3

export PYSPARK_DRIVER_PYTHON=/C:/ProgramData/anaconda3

export PYSPARK_SUBMIT_ARGS='--master local[*]'

拷贝pyspark到site-packages文件夹下

拷贝到自己的anaconda文件下：

6.测试Pyspark是否安装成功

输入

python 复制代码

jupyter notebook

python 复制代码

from pyspark import SparkContext,SparkConf

conf = SparkConf()

data = ["猪八戒","20001"]

sc = SparkContext(conf = conf)


rdd = sc.parallelize(data)

print(rdd.collect())

Anaconda中配置Pyspark的Spark开发环境

目录

1.在控制台中测试ipython是否启动正常

2.安装好Java

3.安装Spark并配置环境变量

4.PySpark配置

5.修改spark\conf下的spark-env文件

6.测试Pyspark是否安装成功