搭建Spark分布式集群

1,下载

下载 spark-3.5.4-bin-without-hadoop.tgz

地址: https://downloads.apache.org/spark/spark-3.5.4/

2,安装

通过虚拟机设置共享文件夹将需要的安装包复制到linux虚拟机中 localhost1。虚拟机的共享盘在 /mnt/hgfs/。 将共享盘安装包复制到 存在目标路径/opt/software/

解压缩

bash 复制代码
cd /opt/software/
tar -zxvf spark-3.5.4-bin-without-hadoop.tgz -C /usr/local/applications/

3,配置环境变量

配置三个Linux节点

bash 复制代码
vi /etc/profile


SPARK_HOME=/usr/local/applications/spark-3.5.4-bin-without-hadoop
PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

export SPARK_HOME PATH
bash 复制代码
source /etc/profile

4,修改Spark配置

bash 复制代码
cd $SPARK_HOME/conf

workers

bash 复制代码
cp workers.template workers

vi workers

localhost1
localhost2
localhost3

spark-defaults.conf

bash 复制代码
cp spark-defaults.conf.template spark-defaults.conf

vi spark-defaults.conf

spark.master                     spark://localhost1:7077
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://localhost1:9000/spark-eventlog
spark.serializer                 org.apache.spark.serializer.KryoSerializer
spark.driver.memory              512m

启动HDFS

bash 复制代码
start-dfs.sh

创建HDFS日志目录

bash 复制代码
hdfs dfs -mkdir /spark-eventlog

spark-env.sh

bash 复制代码
cp spark-env.sh.template spark-env.sh

vi spark-env.sh

export JAVA_HOME=/usr/local/java/jdk1.8.0_431
export HADOOP_HOME=/usr/local/applications/hadoop-3.3.6
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export SPARK_DIST_CLASSPATH=$(/usr/local/applications/hadoop-3.3.6/bin/hadoop classpath)
export SPARK_MASTER_HOST=localhost1
export SPARK_MASTER_PORT=7077

5, 将Spark软件分发到集群

先关闭防火墙

bash 复制代码
systemctl stop firewalld
 
systemctl disable firewalld

将spark分发到localhost2 和 localhost3

bash 复制代码
cd /usr/local/applications
scp -r spark-3.5.4-bin-without-hadoop root@localhost2:/usr/local/applications/spark-3.5.4-bin-without-hadoop
scp -r spark-3.5.4-bin-without-hadoop root@localhost3:/usr/local/applications/spark-3.5.4-bin-without-hadoop

6, 启动集群

bash 复制代码
cd $SPARK_HOME/sbin

./start-all.sh

启动后查看三个节点的进程

bash 复制代码
[root@localhost1 sbin]# jps
3397 Jps
3190 Master
3336 Worker


[root@localhost2 ~]# jps
2966 Worker
3030 Jps


[root@localhost3 ~]# jps
2972 Worker
3037 Jps

在浏览器中输入:

可以看见如下 Spark 的 Web 界面:

7,集群测试

需要使用hdfs,所以需要先启动HDFS

bash 复制代码
start-dfs.sh

1, 计算圆周率

bash 复制代码
run-example SparkPi 10

输出结果

bash 复制代码
[root@localhost1 conf]# run-example SparkPi 10
Pi is roughly 3.141343141343141

2, 启动spark-shell

bash 复制代码
[root@localhost1 conf]# spark-shell
Spark context Web UI available at http://localhost1:4040
Spark context available as 'sc' (master = spark://localhost1:7077, app id = app-20250128143941-0005).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.5.4
      /_/
         
Using Scala version 2.12.18 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_431)
Type in expressions to have them evaluated.
Type :help for more information.

scala> 

http://localhost1:4040/jobs/

在spark shell 中执行

bash 复制代码
scala> val lines = sc.textFile("/wcinput/wc.txt")
lines: org.apache.spark.rdd.RDD[String] = /wcinput/wc.txt MapPartitionsRDD[1] at textFile at <console>:23

scala> lines.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect().foreach(println)
(mapreduce,3)                                                                   
(yarn,2)
(neil,3)
(hadoop,2)
(jack,3)
(hdfs,1)
相关推荐
weixin_307779133 小时前
Spark Streaming的背压机制的原理与实现代码及分析
大数据·python·spark
想做富婆7 小时前
hive:基本数据类型,关于表和列语法
大数据·hive·hadoop
梦醒沉醉7 小时前
单机伪分布Hadoop详细配置
大数据·hadoop·分布式
小Tomkk9 小时前
大数据相关职位介绍之一(数据分析,数据开发,数据产品经理,数据运营)
大数据·数据分析·数据开发·数据运营·数据产品经理
UI设计兰亭妙微9 小时前
大屏 UI 设计风格的未来趋势
大数据
优人ovo12 小时前
Kafka的消息协议
分布式·网络协议·kafka
乙卯年QAQ13 小时前
【Elasticsearch】Elasticsearch的查询
大数据·elasticsearch·搜索引擎
XianxinMao15 小时前
科技巨头AI投资引领未来增长
大数据·人工智能·科技
言之。15 小时前
【Spark速通】
大数据·分布式·spark