1.spark standalone环境安装

概述

环境是spark 3.2.4 hadoop版本 3.2.4,所以官网下载的包为 spark-3.2.4-bin-hadoop3.2.tgz

在具体安装部署之前,需要先下载Spark的安装包,进到 spark官网,点击download按钮

使用Spark的时候一般都是需要和Hadoop交互的,所以需要下载带有Hadoop依赖的安装包

这个时候就需要选择Hadoop版本对应的Spark安装包

机器配置

注意:需要确保这几台机器上的基础环境是OK的,防火墙、免密码登录、还有JDK

因为这几台机器之前已经使用过了,基础环境都是配置过的,所以说在这就直接使用了

linux机器配置请参考此链接

机器ip 机器名
10.32.xx.142 hadoop01
10.32.xx.143 hadoop02
10.32.xx.144 hadoop03
10.32.xx.145 hadoop04

standalone 配置

主节点

先在hadoop01上进行配置

解压
bash 复制代码
# 解压
[root@hadoop01 soft]# tar -zxvf spark-3.2.4-bin-hadoop3.2.tgz

[root@hadoop01 soft]# cd  spark-3.2.4-bin-hadoop3.2
[root@hadoop01 spark-3.2.4-bin-hadoop3.2]# cd conf/
[root@hadoop01 conf]# ls
fairscheduler.xml.template  log4j.properties.template  metrics.properties.template  spark-defaults.conf.template  spark-env.sh.template  workers.template
配置spark-env.sh及workers

spark 2.x版本 从节点叫 slaves.template spark 3.x 这后叫 workers.template ,这个需要注意

bash 复制代码
# 重命名spark-env.sh.template
[root@hadoop01 conf]# mv spark-env.sh.template spark-env.sh
[root@hadoop01 conf]# vi spark-env.sh 
# 在最后加入下面两句
export JAVA_HOME=/data/soft/jdk1.8
export SPARK_MASTER_HOST=hadoop01

# 重命名workers.template
[root@hadoop01 conf]# mv workers.template workers
# 修改workers
[root@hadoop01 conf]# vi workers 

hadoop02
hadoop03
hadoop04
分发

将修改好配置的spark安装包 分发到其它worker节点,即上文所说的 hadoop02 hadoop03 hadoop04 三台机器

bash 复制代码
# 将修改好配置的spark安装包 分发到其它worker节点
[root@hadoop01 soft]#  scp -rq spark-3.2.4-bin-hadoop3.2 hadoop02:/data/soft/
[root@hadoop01 soft]#  scp -rq spark-3.2.4-bin-hadoop3.2 hadoop03:/data/soft/
[root@hadoop01 soft]#  scp -rq spark-3.2.4-bin-hadoop3.2 hadoop04:/data/soft/
启动集群

启动Spark集群

bash 复制代码
[root@hadoop01 spark-3.2.4-bin-hadoop3.2]# ls
bin  conf  data  examples  jars  kubernetes  LICENSE  licenses  NOTICE  python  R  README.md  RELEASE  sbin  yarn
[root@hadoop01 spark-3.2.4-bin-hadoop3.2]# sbin/start-all.sh 
starting org.apache.spark.deploy.master.Master, logging to /data/soft/spark-3.2.4-bin-hadoop3.2/logs/spark-root-org.apache.spark.deploy.master.Master-1-hadoop01.out
hadoop04: starting org.apache.spark.deploy.worker.Worker, logging to /data/soft/spark-3.2.4-bin-hadoop3.2/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-hadoop04.out
hadoop03: starting org.apache.spark.deploy.worker.Worker, logging to /data/soft/spark-3.2.4-bin-hadoop3.2/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-hadoop03.out
hadoop02: starting org.apache.spark.deploy.worker.Worker, logging to /data/soft/spark-3.2.4-bin-hadoop3.2/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-hadoop02.out
验证
bash 复制代码
[root@hadoop01 spark-3.2.4-bin-hadoop3.2]# jps
10520 Master
12254 Jps

[root@hadoop02 soft]# jps
4224 Worker
7132 Jps

还可以访问主节点的8080端口来查看集群信息

执行任务

验证结束后,跑个 spark 任务来测试一下吧

bash 复制代码
[root@hadoop01 spark-3.2.4-bin-hadoop3.2]# bin/spark-submit  --class org.apache.spark.examples.SparkPi --master spark://hadoop01:7077 examples/jars/spark-examples_2.12-3.2.4.jar 2

结束

这就是Spark的独立集群

相关推荐
2501_948106911 天前
计算机毕业设计之基于jsp教科研信息共享系统
java·开发语言·信息可视化·spark·课程设计
极光代码工作室19 天前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
JLWcai2025100919 天前
铸造领域树脂砂轮|金利威多场景解决方案,20 + 配方覆盖全需求
mongodb·zookeeper·eureka·spark·rabbitmq·memcached·storm
ACP广源盛1392462567319 天前
GSV9001S@ACP#1080P 级视频处理芯片,物理 AI 普及终端的高性价比选择
大数据·人工智能·分布式·嵌入式硬件·spark
木心术119 天前
AMD Ryzen AI Halo与NVIDIA RTX Spark/DGX Spark两款AI个人主机的差异和优劣势
大数据·人工智能·spark
ACP广源盛1392462567320 天前
GSV5600@ACP#多接口协议转换芯片,物理 AI 便携终端的互联核心
大数据·人工智能·分布式·嵌入式硬件·spark
KaMeidebaby20 天前
卡梅德生物技术快报 | 噬菌体展示 12 肽文库在蛋白表位定位中的应用与实验数据
大数据·人工智能·架构·spark·新浪微博
ACP广源盛1392462567321 天前
GSV2221@ACP#DP 1.4 MST 多屏转换芯片,物理 AI 多模态交互的视觉中枢
大数据·人工智能·嵌入式硬件·gpt·spark
想ai抽21 天前
Spark Executor 因节点内存超限被杀的分析与应对
大数据·性能优化·spark
simidagogogo21 天前
生产环境推荐系统最隐蔽的坑:Training-Serving Skew 详解与实战
算法·spark·推荐算法