Anaconda中配置Pyspark的Spark开发环境

Anaconda中配置Pyspark的Spark开发环境

目录

1.在控制台中测试ipython是否启动正常

anaconda正常安装

这里先检查ipython是否正常,cmd命令窗口,输入,ipython,如下就证明可用。

2.安装好Java

测试

3.安装Spark并配置环境变量

spark 官网地址:https://spark.apache.org/downloads.html

选择需要的版本后安装

解压:

配置环境变量

添加到Path:

4.PySpark配置


增加:

python 复制代码
%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark; 

5.修改spark\conf下的spark-env文件

这里路径,写自己的anaconda路径

export PYSPARK_PYTHON=/C:/ProgramData/anaconda3

export PYSPARK_DRIVER_PYTHON=/C:/ProgramData/anaconda3

export PYSPARK_SUBMIT_ARGS='--master local[*]'

拷贝pyspark到site-packages文件夹下

拷贝到自己的anaconda文件下:

6.测试Pyspark是否安装成功

输入

python 复制代码
jupyter notebook


python 复制代码
from pyspark import SparkContext,SparkConf

conf = SparkConf()

data = ["猪八戒","20001"]

sc = SparkContext(conf = conf)


rdd = sc.parallelize(data)

print(rdd.collect())
相关推荐
咸鱼求放生22 分钟前
es在Linux安装
大数据·elasticsearch·搜索引擎
记得开心一点嘛25 分钟前
使用MinIO搭建自己的分布式文件存储
分布式·spring cloud·minio
纪元A梦2 小时前
分布式拜占庭容错算法——PBFT算法深度解析
java·分布式·算法
人大博士的交易之路2 小时前
今日行情明日机会——20250606
大数据·数学建模·数据挖掘·数据分析·涨停回马枪
Leo.yuan5 小时前
数据库同步是什么意思?数据库架构有哪些?
大数据·数据库·oracle·数据分析·数据库架构
SelectDB技术团队6 小时前
从 ClickHouse、Druid、Kylin 到 Doris:网易云音乐 PB 级实时分析平台降本增效
大数据·数据仓库·clickhouse·kylin·实时分析
Web极客码7 小时前
在WordPress上添加隐私政策页面
大数据·人工智能·wordpress
TCChzp7 小时前
Kafka入门-消费者
分布式·kafka
Apache Flink7 小时前
Flink在B站的大规模云原生实践
大数据·云原生·flink
itachi-uchiha8 小时前
Docker部署Hive大数据组件
大数据·hive·docker