pyspark 安装记录

1、安装软件

1、python 3.10

2、hadoop-3.3.4 里面的winutils 要记得添加

3、java-17

4、spark-3.5.1-bin-hadoop3

python 安装 pyspark,Jupyter notebook

python 复制代码
pip install pyspark
pip install jupyter notebook

2、添加环境变量

  1. JAVA_HOME=C:\PySparkService\java-17
  2. HADOOP_HOME=C:\PySparkService\hadoop-3.3.4
  3. SPARK_HOME=C:\PySparkService\spark-3.5.1-bin-hadoop3
  4. %JAVA_HOME%\bin
  5. %HADOOP_HOME%\bin
  6. %SPARK_HOME%\bin

下面环境不配置会报错

PYSPARK_PYTHON=python

#jupyter notebook 启动 pyspark

自己安装 jupyter notebook 使用下面环境变量

PYSPARK_DRIVER_PYTHON=jupyter

# anaconda 可能是下面的

PYSPARK_DRIVER_PYTHON=ipython

PYSPARK_DRIVER_PYTHON_OPTS=notebook

cmd 命令行启动pyspark

启动成功

PYSPARK_PYTHON=python

上面环境不设置会报下面错误

复制代码
Py4JJavaError: An error occurred while calling o56.showString.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 
相关推荐
u0109272711 小时前
RESTful API设计最佳实践(Python版)
jvm·数据库·python
我材不敲代码5 小时前
Python实现打包贪吃蛇游戏
开发语言·python·游戏
0思必得07 小时前
[Web自动化] Selenium处理动态网页
前端·爬虫·python·selenium·自动化
韩立学长7 小时前
【开题答辩实录分享】以《基于Python的大学超市仓储信息管理系统的设计与实现》为例进行选题答辩实录分享
开发语言·python
qq_192779877 小时前
高级爬虫技巧:处理JavaScript渲染(Selenium)
jvm·数据库·python
u0109272717 小时前
使用Plotly创建交互式图表
jvm·数据库·python
爱学习的阿磊7 小时前
Python GUI开发:Tkinter入门教程
jvm·数据库·python
Imm7778 小时前
中国知名的车膜品牌推荐几家
人工智能·python
tudficdew8 小时前
实战:用Python分析某电商销售数据
jvm·数据库·python
sjjhd6528 小时前
Python日志记录(Logging)最佳实践
jvm·数据库·python