pyspark 安装记录

1、安装软件

1、python 3.10

2、hadoop-3.3.4 里面的winutils 要记得添加

3、java-17

4、spark-3.5.1-bin-hadoop3

python 安装 pyspark,Jupyter notebook

python 复制代码
pip install pyspark
pip install jupyter notebook

2、添加环境变量

  1. JAVA_HOME=C:\PySparkService\java-17
  2. HADOOP_HOME=C:\PySparkService\hadoop-3.3.4
  3. SPARK_HOME=C:\PySparkService\spark-3.5.1-bin-hadoop3
  4. %JAVA_HOME%\bin
  5. %HADOOP_HOME%\bin
  6. %SPARK_HOME%\bin

下面环境不配置会报错

PYSPARK_PYTHON=python

#jupyter notebook 启动 pyspark

自己安装 jupyter notebook 使用下面环境变量

PYSPARK_DRIVER_PYTHON=jupyter

# anaconda 可能是下面的

PYSPARK_DRIVER_PYTHON=ipython

PYSPARK_DRIVER_PYTHON_OPTS=notebook

cmd 命令行启动pyspark

启动成功

PYSPARK_PYTHON=python

上面环境不设置会报下面错误

复制代码
Py4JJavaError: An error occurred while calling o56.showString.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 
相关推荐
进击的六角龙1 小时前
Python中处理Excel的基本概念(如工作簿、工作表等)
开发语言·python·excel
一只爱好编程的程序猿1 小时前
Java后台生成指定路径下创建指定名称的文件
java·python·数据下载
Aniay_ivy1 小时前
深入探索 Java 8 Stream 流:高效操作与应用场景
java·开发语言·python
gonghw4032 小时前
DearPyGui学习
python·gui
向阳12182 小时前
Bert快速入门
人工智能·python·自然语言处理·bert
engchina2 小时前
Neo4j 和 Python 初学者指南:如何使用可选关系匹配优化 Cypher 查询
数据库·python·neo4j
兆。2 小时前
掌握 PyQt5:从零开始的桌面应用开发
开发语言·爬虫·python·qt
南宫理的日知录2 小时前
99、Python并发编程:多线程的问题、临界资源以及同步机制
开发语言·python·学习·编程学习
coberup2 小时前
django Forbidden (403)错误解决方法
python·django·403错误
龙哥说跨境3 小时前
如何利用指纹浏览器爬虫绕过Cloudflare的防护?
服务器·网络·python·网络爬虫