使用PyCharm连接虚拟机运行spark任务,本地开发:远程提交测试

在本地写代码,右键运行,将代码自动提交到集群上

spark是Standalone集群

1) 集群环境准备好

sql 复制代码
#启动集群:第一台机器
start-dfs.sh
cd /opt/installs/spark
sbin/start-master.sh
sbin/start-workers.sh
sbin/start-history-server.sh

2) Windows指定远程解析器

在虚拟机上创建一个文件夹,用于同步本地代码到服务上。

sql 复制代码
#创建同步目录:将Windows上的代码和数据同步到Linux的这个目录下
mkdir -p /root/pyspark_code

至此,以后右键运行代码,都会将代码自动提交给集群,让集群运行,假如你想换回本地,可以在此处将环境切换回来。

问题:

解决方案:在bigdata01中,安装pyspark。

sql 复制代码
我们在linux上配置了阿里云的源,不代表在base中也可以使用,运行时需要带上源地址
pip install pyspark==3.1.2 -i https://pypi.tuna.tsinghua.edu.cn/simple/

验证是否已经安装:

sql 复制代码
pip list 或者  conda list
也可以这么干:
pip list | grep pyspark

下载完成之后,重启一下 pycharm.

3)代码如何提交到集群上

第一种是自动提交

第二种是手动提交:

同步后,在linux上查看,有代码:

运行的话,直接在本地右键运行即可,以上代码如果需要传递参数,在ide工具中写。

假如在运行过程中,出现

sql 复制代码
Initial job has not accepted any resources; check your cluster UI to ensure that workers are registe

程序在运行时,没有资源,请确保你有worker,假如有worker,请查看worker是否有资源。

有可能是以下几个问题:

1、集群资源不足,关闭掉没用的资源

2、目前集群中有其他任务,占用了资源,直接关闭掉

修改一些配置:

修改 worker 的内存大小:

相关推荐
humors22141 分钟前
【分享】传统文化/国学/圣贤视频
大数据·程序人生
___波子 Pro Max.42 分钟前
Python参数解析默认True变False
python
橙露1 小时前
面向对象编程思想:Java 与 Python 的封装、继承与多态对比分析
java·开发语言·python
Jia ming1 小时前
《智能法官软件项目》—法条检索模块
python·教学·案例·智能法官软件
REDcker1 小时前
DNS技术详解
服务器·后端·计算机网络·互联网·dns·服务端
上海合宙LuatOS1 小时前
LuatOS核心库API——【io】 io操作(扩展)
java·服务器·前端·网络·单片机·嵌入式硬件·物联网
LitchiCheng1 小时前
Mujoco 如何添加 Apriltag 并获得相机视野进行识别
人工智能·python·开源
一切尽在,你来1 小时前
LangGraph快速入门
人工智能·python·langchain·ai编程
啊哈哈121382 小时前
Python基本语法复盘笔记1(输入输出/字符串/列表)
开发语言·笔记·python
SCLchuck2 小时前
人工智能-概率密度估计
人工智能·python·概率论·概率密度估计