使用Pycharm运行spark实例时没有pyspark包(ModuleNotFoundError: No module named ‘py4j‘)

一、问题描述

在安装并配置pyspark下载并打开Pycharm(专业版)后进行spark实例操作(笔者以统计文件中的行数为例)时,运行程序后提示ModuleNotFoundError: No module named 'py4j':

二、解决办法

1.下载py4j包后下载pyspark包

打开新终端,在终端中输入(若在pycharm中进行下载可能导致下载失败,这里指定使用清华源镜像进行下载):

bash 复制代码
 pip install py4j -i https://pypi.tuna.tsinghua.edu.cn/simple

下载完成后打开Pycharm,再次运行即可成功,但代码中还是会有错误提示(红色波浪线):

要消除错误提示(红色波浪线)需下载pyspark包,点击Pycharm右上角的File>settings>Project:PythonProject>Python Interpreter,点击+号,在搜索框中搜索pyspark安装即可:

安装完成后可以看到错误提示消失且程序成功运行:

2.直接下载pyspark包

打开终端,输入以下内容来通过清华镜像下载pyspark包:

bash 复制代码
 pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple

等待下载完成后重新启动Pycharm,再次运行程序即可成功且无错误提示:

三、问题分析

上述错误是关于找不到py4j模块相关的错误。这个模块用于在Python和Java之间进行通信,这对于PySpark正常工作是至关重要的。可以使用pip来安装它,通过使用清华大学开源软件镜像站提供的源来安装PySpark,通常可以加快下载速度并提高安装成功率。安装成功后程序正常运行!!!

相关推荐
菜鸟的人工智能之路8 分钟前
极坐标气泡图:医学数据分析的可视化新视角
python·数据分析·健康医疗
菜鸟学Python9 分钟前
Python 数据分析核心库大全!
开发语言·python·数据挖掘·数据分析
小白不太白95010 分钟前
设计模式之 责任链模式
python·设计模式·责任链模式
喜欢猪猪16 分钟前
Django:从入门到精通
后端·python·django
糖豆豆今天也要努力鸭21 分钟前
torch.__version__的torch版本和conda list的torch版本不一致
linux·pytorch·python·深度学习·conda·torch
烦躁的大鼻嘎30 分钟前
【Linux】深入理解GCC/G++编译流程及库文件管理
linux·运维·服务器
ac.char37 分钟前
在 Ubuntu 上安装 Yarn 环境
linux·运维·服务器·ubuntu
敲上瘾37 分钟前
操作系统的理解
linux·运维·服务器·c++·大模型·操作系统·aigc
何大春37 分钟前
【弱监督语义分割】Self-supervised Image-specific Prototype Exploration for WSSS 论文阅读
论文阅读·人工智能·python·深度学习·论文笔记·原型模式
在下不上天1 小时前
Flume日志采集系统的部署,实现flume负载均衡,flume故障恢复
大数据·开发语言·python