pyspark 安装记录

1、安装软件

1、python 3.10

2、hadoop-3.3.4 里面的winutils 要记得添加

3、java-17

4、spark-3.5.1-bin-hadoop3

python 安装 pyspark,Jupyter notebook

python 复制代码
pip install pyspark
pip install jupyter notebook

2、添加环境变量

  1. JAVA_HOME=C:\PySparkService\java-17
  2. HADOOP_HOME=C:\PySparkService\hadoop-3.3.4
  3. SPARK_HOME=C:\PySparkService\spark-3.5.1-bin-hadoop3
  4. %JAVA_HOME%\bin
  5. %HADOOP_HOME%\bin
  6. %SPARK_HOME%\bin

下面环境不配置会报错

PYSPARK_PYTHON=python

#jupyter notebook 启动 pyspark

自己安装 jupyter notebook 使用下面环境变量

PYSPARK_DRIVER_PYTHON=jupyter

# anaconda 可能是下面的

PYSPARK_DRIVER_PYTHON=ipython

PYSPARK_DRIVER_PYTHON_OPTS=notebook

cmd 命令行启动pyspark

启动成功

PYSPARK_PYTHON=python

上面环境不设置会报下面错误

复制代码
Py4JJavaError: An error occurred while calling o56.showString.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 
相关推荐
火车叼位14 分钟前
也许你不需要创建.venv, 此规范使python脚本自备依赖
python
火车叼位21 分钟前
脚本伪装:让 Python 与 Node.js 像原生 Shell 命令一样运行
运维·javascript·python
孤狼warrior31 分钟前
YOLO目标检测 一千字解析yolo最初的摸样 模型下载,数据集构建及模型训练代码
人工智能·python·深度学习·算法·yolo·目标检测·目标跟踪
Katecat9966341 分钟前
YOLO11分割算法实现甲状腺超声病灶自动检测与定位_DWR方法应用
python
玩大数据的龙威1 小时前
农经权二轮延包—各种地块示意图
python·arcgis
ZH15455891311 小时前
Flutter for OpenHarmony Python学习助手实战:数据库操作与管理的实现
python·学习·flutter
belldeep1 小时前
python:用 Flask 3 , mistune 2 和 mermaid.min.js 10.9 来实现 Markdown 中 mermaid 图表的渲染
javascript·python·flask
喵手1 小时前
Python爬虫实战:电商价格监控系统 - 从定时任务到历史趋势分析的完整实战(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·电商价格监控系统·从定时任务到历史趋势分析·采集结果sqlite存储
喵手2 小时前
Python爬虫实战:京东/淘宝搜索多页爬虫实战 - 从反爬对抗到数据入库的完整工程化方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·京东淘宝页面数据采集·反爬对抗到数据入库·采集结果csv导出
B站_计算机毕业设计之家2 小时前
猫眼电影数据可视化与智能分析平台 | Python Flask框架 Echarts 推荐算法 爬虫 大数据 毕业设计源码
python·机器学习·信息可视化·flask·毕业设计·echarts·推荐算法