Anaconda中配置Pyspark的Spark开发环境

Anaconda中配置Pyspark的Spark开发环境

目录

1.在控制台中测试ipython是否启动正常

anaconda正常安装

这里先检查ipython是否正常,cmd命令窗口,输入,ipython,如下就证明可用。

2.安装好Java

测试

3.安装Spark并配置环境变量

spark 官网地址:https://spark.apache.org/downloads.html

选择需要的版本后安装

解压:

配置环境变量

添加到Path:

4.PySpark配置


增加:

python 复制代码
%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark; 

5.修改spark\conf下的spark-env文件

这里路径,写自己的anaconda路径

export PYSPARK_PYTHON=/C:/ProgramData/anaconda3

export PYSPARK_DRIVER_PYTHON=/C:/ProgramData/anaconda3

export PYSPARK_SUBMIT_ARGS='--master local[*]'

拷贝pyspark到site-packages文件夹下

拷贝到自己的anaconda文件下:

6.测试Pyspark是否安装成功

输入

python 复制代码
jupyter notebook


python 复制代码
from pyspark import SparkContext,SparkConf

conf = SparkConf()

data = ["猪八戒","20001"]

sc = SparkContext(conf = conf)


rdd = sc.parallelize(data)

print(rdd.collect())
相关推荐
极客111 小时前
数字智慧方案6169丨智慧医院后勤管理解决方案(58页PPT)(文末有下载方式)
大数据
码熔burning2 小时前
【MQ篇】RabbitMQ之死信交换机!
java·分布式·rabbitmq·mq
豪越大豪2 小时前
豪越科技消防立库方案:实现应急物资高效管理
大数据·运维
zyxzyx6662 小时前
Redis实现分布式锁
数据库·redis·分布式
大•南瓜糊胡5 小时前
《RabbitMQ 全面解析:从原理到实战的高性能消息队列指南》
分布式·rabbitmq
漫步者TZ5 小时前
【kafka系列】消费者组
分布式·kafka
中草药z6 小时前
【Redis分布式】主从复制
数据库·redis·分布式·主从复制·全量复制·部分复制
yyywoaini~9 小时前
如何搭建spark yarn 模式的集群集群
大数据
小咕聊编程9 小时前
【含文档+PPT+源码】基于大数据的交通流量预测系统
大数据·python·django
搞不懂语言的程序员10 小时前
Kafka Producer的acks参数对消息可靠性有何影响?
分布式·kafka