1.spark standalone环境安装

概述

环境是spark 3.2.4 hadoop版本 3.2.4,所以官网下载的包为 spark-3.2.4-bin-hadoop3.2.tgz

在具体安装部署之前,需要先下载Spark的安装包,进到 spark官网,点击download按钮

使用Spark的时候一般都是需要和Hadoop交互的,所以需要下载带有Hadoop依赖的安装包

这个时候就需要选择Hadoop版本对应的Spark安装包

机器配置

注意:需要确保这几台机器上的基础环境是OK的,防火墙、免密码登录、还有JDK

因为这几台机器之前已经使用过了,基础环境都是配置过的,所以说在这就直接使用了

linux机器配置请参考此链接

机器ip 机器名
10.32.xx.142 hadoop01
10.32.xx.143 hadoop02
10.32.xx.144 hadoop03
10.32.xx.145 hadoop04

standalone 配置

主节点

先在hadoop01上进行配置

解压
bash 复制代码
# 解压
[root@hadoop01 soft]# tar -zxvf spark-3.2.4-bin-hadoop3.2.tgz

[root@hadoop01 soft]# cd  spark-3.2.4-bin-hadoop3.2
[root@hadoop01 spark-3.2.4-bin-hadoop3.2]# cd conf/
[root@hadoop01 conf]# ls
fairscheduler.xml.template  log4j.properties.template  metrics.properties.template  spark-defaults.conf.template  spark-env.sh.template  workers.template
配置spark-env.sh及workers

spark 2.x版本 从节点叫 slaves.template spark 3.x 这后叫 workers.template ,这个需要注意

bash 复制代码
# 重命名spark-env.sh.template
[root@hadoop01 conf]# mv spark-env.sh.template spark-env.sh
[root@hadoop01 conf]# vi spark-env.sh 
# 在最后加入下面两句
export JAVA_HOME=/data/soft/jdk1.8
export SPARK_MASTER_HOST=hadoop01

# 重命名workers.template
[root@hadoop01 conf]# mv workers.template workers
# 修改workers
[root@hadoop01 conf]# vi workers 

hadoop02
hadoop03
hadoop04
分发

将修改好配置的spark安装包 分发到其它worker节点,即上文所说的 hadoop02 hadoop03 hadoop04 三台机器

bash 复制代码
# 将修改好配置的spark安装包 分发到其它worker节点
[root@hadoop01 soft]#  scp -rq spark-3.2.4-bin-hadoop3.2 hadoop02:/data/soft/
[root@hadoop01 soft]#  scp -rq spark-3.2.4-bin-hadoop3.2 hadoop03:/data/soft/
[root@hadoop01 soft]#  scp -rq spark-3.2.4-bin-hadoop3.2 hadoop04:/data/soft/
启动集群

启动Spark集群

bash 复制代码
[root@hadoop01 spark-3.2.4-bin-hadoop3.2]# ls
bin  conf  data  examples  jars  kubernetes  LICENSE  licenses  NOTICE  python  R  README.md  RELEASE  sbin  yarn
[root@hadoop01 spark-3.2.4-bin-hadoop3.2]# sbin/start-all.sh 
starting org.apache.spark.deploy.master.Master, logging to /data/soft/spark-3.2.4-bin-hadoop3.2/logs/spark-root-org.apache.spark.deploy.master.Master-1-hadoop01.out
hadoop04: starting org.apache.spark.deploy.worker.Worker, logging to /data/soft/spark-3.2.4-bin-hadoop3.2/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-hadoop04.out
hadoop03: starting org.apache.spark.deploy.worker.Worker, logging to /data/soft/spark-3.2.4-bin-hadoop3.2/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-hadoop03.out
hadoop02: starting org.apache.spark.deploy.worker.Worker, logging to /data/soft/spark-3.2.4-bin-hadoop3.2/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-hadoop02.out
验证
bash 复制代码
[root@hadoop01 spark-3.2.4-bin-hadoop3.2]# jps
10520 Master
12254 Jps

[root@hadoop02 soft]# jps
4224 Worker
7132 Jps

还可以访问主节点的8080端口来查看集群信息

执行任务

验证结束后,跑个 spark 任务来测试一下吧

bash 复制代码
[root@hadoop01 spark-3.2.4-bin-hadoop3.2]# bin/spark-submit  --class org.apache.spark.examples.SparkPi --master spark://hadoop01:7077 examples/jars/spark-examples_2.12-3.2.4.jar 2

结束

这就是Spark的独立集群

相关推荐
岑梓铭44 分钟前
(CentOs系统虚拟机)Standalone模式下安装部署“基于Python编写”的Spark框架
linux·python·spark·centos
Data跳动12 小时前
Spark内存都消耗在哪里了?
大数据·分布式·spark
lucky_syq13 小时前
流式处理,为什么Flink比Spark Streaming好?
大数据·flink·spark
goTsHgo18 小时前
在 Spark 上实现 Graph Embedding
大数据·spark·embedding
程序猿小柒18 小时前
【Spark】Spark SQL执行计划-精简版
大数据·sql·spark
隔着天花板看星星18 小时前
Spark-Streaming集成Kafka
大数据·分布式·中间件·spark·kafka
lucky_syq2 天前
Spark和Hive的区别
大数据·hive·spark
隔着天花板看星星3 天前
Spark-Streaming receiver模式源码解析
大数据·分布式·spark
Data跳动3 天前
Spark 运行时对哪些数据会做缓存?
java·缓存·spark