使用PyCharm连接虚拟机运行spark任务,本地开发:远程提交测试

在本地写代码,右键运行,将代码自动提交到集群上

spark是Standalone集群

1) 集群环境准备好

sql 复制代码
#启动集群:第一台机器
start-dfs.sh
cd /opt/installs/spark
sbin/start-master.sh
sbin/start-workers.sh
sbin/start-history-server.sh

2) Windows指定远程解析器

在虚拟机上创建一个文件夹,用于同步本地代码到服务上。

sql 复制代码
#创建同步目录:将Windows上的代码和数据同步到Linux的这个目录下
mkdir -p /root/pyspark_code

至此,以后右键运行代码,都会将代码自动提交给集群,让集群运行,假如你想换回本地,可以在此处将环境切换回来。

问题:

解决方案:在bigdata01中,安装pyspark。

sql 复制代码
我们在linux上配置了阿里云的源,不代表在base中也可以使用,运行时需要带上源地址
pip install pyspark==3.1.2 -i https://pypi.tuna.tsinghua.edu.cn/simple/

验证是否已经安装:

sql 复制代码
pip list 或者  conda list
也可以这么干:
pip list | grep pyspark

下载完成之后,重启一下 pycharm.

3)代码如何提交到集群上

第一种是自动提交

第二种是手动提交:

同步后,在linux上查看,有代码:

运行的话,直接在本地右键运行即可,以上代码如果需要传递参数,在ide工具中写。

假如在运行过程中,出现

sql 复制代码
Initial job has not accepted any resources; check your cluster UI to ensure that workers are registe

程序在运行时,没有资源,请确保你有worker,假如有worker,请查看worker是否有资源。

有可能是以下几个问题:

1、集群资源不足,关闭掉没用的资源

2、目前集群中有其他任务,占用了资源,直接关闭掉

修改一些配置:

修改 worker 的内存大小:

相关推荐
烟锁池塘柳02 分钟前
【Anaconda】修改 Conda 环境存储路径的几种方法(详细教程)
python·pycharm·conda
wefly20172 分钟前
无需安装的 M3U8 在线播放器,快速实现 HLS 流预览与调试
java·开发语言·python·开发工具
飞Link2 分钟前
深度解析:建模动作序列(Action Sequence Modeling)的实战指南
开发语言·python·数据挖掘
明月(Alioo)3 分钟前
OpenClaw与ClawHub的关系:当“智能体”遇上“技能商店”
python·ai·agent
喵手5 分钟前
Python爬虫实战:VS Code 扩展市场热门榜单“脱壳”实战!
vscode·爬虫·python·爬虫实战·零基础python爬虫教学·vscode扩展市场热门榜单·vs热门榜单数据采集
飞Link5 分钟前
终结序列建模:Transformer 架构深度解析与实战指南
人工智能·python·深度学习·算法·transformer
青瓷程序设计6 分钟前
基于深度学习的【动物识别】系统实现~Python+人工智能+图像识别+算法模型
人工智能·python·深度学习
AC赳赳老秦7 分钟前
2026 AI原生工具链升级:DeepSeek与AI原生IDE深度联动,重塑开发效率新高度
大数据·ide·人工智能·web3·去中心化·ai-native·deepseek
卡次卡次18 分钟前
注意点:字节码查看方法以及字节码的输出需要关注哪些
python
再难也得平11 分钟前
力扣238. 除自身以外数组的乘积(Java解法)
python·算法·leetcode