Anaconda中配置Pyspark的Spark开发环境

Anaconda中配置Pyspark的Spark开发环境

目录

1.在控制台中测试ipython是否启动正常

anaconda正常安装

这里先检查ipython是否正常,cmd命令窗口,输入,ipython,如下就证明可用。

2.安装好Java

测试

3.安装Spark并配置环境变量

spark 官网地址:https://spark.apache.org/downloads.html

选择需要的版本后安装

解压:

配置环境变量

添加到Path:

4.PySpark配置


增加:

python 复制代码
%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark; 

5.修改spark\conf下的spark-env文件

这里路径,写自己的anaconda路径

export PYSPARK_PYTHON=/C:/ProgramData/anaconda3

export PYSPARK_DRIVER_PYTHON=/C:/ProgramData/anaconda3

export PYSPARK_SUBMIT_ARGS='--master local[*]'

拷贝pyspark到site-packages文件夹下

拷贝到自己的anaconda文件下:

6.测试Pyspark是否安装成功

输入

python 复制代码
jupyter notebook


python 复制代码
from pyspark import SparkContext,SparkConf

conf = SparkConf()

data = ["猪八戒","20001"]

sc = SparkContext(conf = conf)


rdd = sc.parallelize(data)

print(rdd.collect())
相关推荐
MQ_SOFTWARE1 分钟前
文件权限标记机制在知识安全共享中的应用实践
大数据·网络
白鹭1 小时前
基于LNMP架构的分布式个人博客搭建
linux·运维·服务器·网络·分布式·apache
不辉放弃1 小时前
kafka的消费者负载均衡机制
数据库·分布式·kafka·负载均衡
花下的晚风1 小时前
模拟flink处理无限数据流
大数据·flink
小悟空1 小时前
[AI 生成] Flink 面试题
大数据·面试·flink
livemetee1 小时前
Flink2.0学习笔记:Stream API 常用转换算子
大数据·学习·flink
AutoMQ3 小时前
技术干货|为什么越来越多企业放弃 Flink/Spark,用 AutoMQ 替代传统 ETL?
大数据
java叶新东老师3 小时前
三、搭建springCloudAlibaba2021.1版本分布式微服务-springcloud loadbalancer负载均衡
分布式·spring cloud·微服务
zxsz_com_cn4 小时前
智能化设备健康管理:中讯烛龙预测性维护系统引领行业变革
大数据·架构
沉下去,苦磨练!5 小时前
kafka的部署和jmeter连接kafka
分布式·jmeter·kafka