【Spark集群部署系列一】Spark local模式介绍和搭建以及使用(内含Linux安装Anaconda)

简介

注意:

在部署spark集群前,请部署好Hadoop集群,jdk8【当然Hadoop集群需要运行在jdk上】,需要注意hadoop,spark的版本,考虑兼容问题。比如hadoop3.0以上的才兼容spark3.0以上的。

下面是Hadoop集群部署的链接,个人笔记,已经成功部署两次了,实时更新,分【一】【二】两部分,需要的自己看。不懂欢迎问,看到了解答。(链接失效的话请参考个人主页)

hadoop集群部署【一】HDFS集群http://t.csdnimg.cn/BVKlqhadoop集群部署【二】YARN,MapReduce集群http://t.csdnimg.cn/aJJt7

搭建准备工作:

需要python环境,上传Anaconda,找到放置的位置。

安装Anaconda

在node1(我的第一台机器名)安装Anaconda(我的是Anaconda3-2021.05-Linux-x86_64.sh 版本python3.8)

复制代码
sh ./Anaconda3-2021.05-Linux-x86_64.sh

然后一直空格,出现[yes|no] 就回答yes,懂?

出现这样的就填你要把anaconda安装到哪里。(路径)

完成后结果(退出终端,重新进来)

更改conda国内源

vim ~/.condarc(新建的,一般里面没东西)

复制代码
channels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

终端输入

复制代码
python

创建spark运行的虚拟环境

复制代码
conda create -n pyspark python=3.8
切换虚拟环境
复制代码
conda activate pyspark

Spark Local部署

上传解压spark

(我的是 spark-3.2.0-bin-hadoop3.2.tgz)

通过什么工具不管,能上传就行。

找到spark上传的位置,cd 进到该目录,不进去也行,自己在前面加路径哈!解压。

复制代码
 tar -zxvf spark-3.2.0-bin-hadoop3.2.tgz -C /export/server spark-3.2.0-bin-hadoop3.2/

-C 参数后跟解压到哪(路径)

复制代码
cd /export/server    #填你自己解压的路径

建立软链接

复制代码
 ln -s spark-3.2.0-bin-hadoop3.2/ spark

ll

配置环境变量

复制代码
vim /etc/profile
复制代码
export SPARK_HOME=/export/server/spark
export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python3.8
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
python 复制代码
:wq
python 复制代码
source /etc/profile
复制代码
vim /root/.bashrc

添加

复制代码
export JAVA_HOME=/export/server/jdk
export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python3.8

:wq

启动spark local模式

pyspark

进入spark的bin路径下

复制代码
cd /export/server/spark/bin  # 注意路径

./pyspark

运行下面代码,结果参考上图

python 复制代码
sc.parallelize([1,2,3,4,5]).map(lambda x:x *10).collect()

可以通过游览器输入node1:4040查看监控页面(多个进程不会起冲突,具体监控页面的端口看上图spark版本下面第二行)

Ctrl+d退出

scala交互式界面
python 复制代码
./spark-shell

Ctrl+d退出

提交python文件(参考spark自带的案例文件pi.py 求圆周率,参数10 迭代十次)
python 复制代码
./spark-submit --master local[*] /export/server/spark/examples/src/main/python/pi.py 10

提交文件没有监控界面

相关推荐
covco5 小时前
矩阵管理系统指南:拆解星链引擎的架构设计与全链路落地实践
大数据·人工智能·矩阵
陕西字符5 小时前
2026 西安 豆包获客优化技术深度解析:企来客科技 AI 全域获客系统测评
大数据·人工智能
原来是猿5 小时前
网络计算器:理解序列化与反序列化(中)
linux·运维·服务器·网络·tcp/ip
virtaitech6 小时前
算力浪费与算力饥渴并存,OrionX社区版免费开放能否破解这一困局?
大数据·人工智能·gpu算力
薛定e的猫咪6 小时前
因果推理研究方向综述笔记
人工智能·笔记·深度学习·算法
AOwhisky6 小时前
虚拟化技术学习笔记
linux·运维·笔记·学习·虚拟化技术
一只机电自动化菜鸟7 小时前
一建机电备考笔记(33) 机电专业技术(起重技术-吊装方案)(含考频+题型)
经验分享·笔记·学习·职场和发展·课程设计
covco7 小时前
分布式架构实战:全平台矩阵管理系统的技术实现与性能优化
分布式·矩阵·架构
咖啡里的茶i7 小时前
在Docker环境中安装Hadoop cluster 实验报告一
hadoop·docker·容器
青春万岁!!7 小时前
hive模型数据异常-作业调度问题
大数据·数据仓库·hive