Anaconda中配置Pyspark的Spark开发环境

Anaconda中配置Pyspark的Spark开发环境

目录

1.在控制台中测试ipython是否启动正常

anaconda正常安装

这里先检查ipython是否正常,cmd命令窗口,输入,ipython,如下就证明可用。

2.安装好Java

测试

3.安装Spark并配置环境变量

spark 官网地址:https://spark.apache.org/downloads.html

选择需要的版本后安装

解压:

配置环境变量

添加到Path:

4.PySpark配置


增加:

python 复制代码
%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark; 

5.修改spark\conf下的spark-env文件

这里路径,写自己的anaconda路径

export PYSPARK_PYTHON=/C:/ProgramData/anaconda3

export PYSPARK_DRIVER_PYTHON=/C:/ProgramData/anaconda3

export PYSPARK_SUBMIT_ARGS='--master local[*]'

拷贝pyspark到site-packages文件夹下

拷贝到自己的anaconda文件下:

6.测试Pyspark是否安装成功

输入

python 复制代码
jupyter notebook


python 复制代码
from pyspark import SparkContext,SparkConf

conf = SparkConf()

data = ["猪八戒","20001"]

sc = SparkContext(conf = conf)


rdd = sc.parallelize(data)

print(rdd.collect())
相关推荐
智能相对论3 小时前
CES深度观察丨智能清洁的四大关键词:变形、出户、体验以及生态协同
大数据·人工智能
焦耳热科技前沿4 小时前
北京科技大学/理化所ACS Nano:混合价态Cu₂Sb金属间化合物实现高效尿素电合成
大数据·人工智能·自动化·能源·材料工程
min1811234565 小时前
深度伪造内容的检测与溯源技术
大数据·网络·人工智能
武子康5 小时前
大数据-209 深度理解逻辑回归(Logistic Regression)与梯度下降优化算法
大数据·后端·机器学习
小北方城市网5 小时前
分布式锁实战指南:从选型到落地,避开 90% 的坑
java·数据库·redis·分布式·python·缓存
数据智研6 小时前
【数据分享】(2005–2016年)基于水资源承载力的华北地区降水与地下水要素数据
大数据·人工智能·信息可视化·数据分析
范桂飓7 小时前
大模型分布式训练框架 Megatron-LM
人工智能·分布式
TDengine (老段)7 小时前
TDengine Python 连接器入门指南
大数据·数据库·python·物联网·时序数据库·tdengine·涛思数据
亚古数据8 小时前
亚古数据:查询斯里兰卡公司可以获取什么文件和信息?
大数据·亚古数据·斯里兰卡公司查询
WLJT1231231238 小时前
守护自然与滋养民生的绿色之路
大数据·安全