龙蜥8.10中spark各种集群及单机模式的搭建spark3.5.6(基于hadoop3.3.6集群)

先说最终的访问端口,如我这里ip为172.20.94.37、172.20.94.38、172.20.94.39,主机名分别为:hadoop37、hadoop38、hadoop39.

最终访问(默认端口):

bash 复制代码
hadoop webui 172.20.94.37:9870
hdfs 端口 8020
yarn 172.20.94.37:8088
historyserver 172.20.94.37:19888

spark-master-port: 7077
spark-webui-port: 172.20.94.37:8080
spark-worker-webui-port: 172.20.94.37:8081
spark-historyserver: 172.20.94.37:18081

**

注意:如果要切换集群模式,一定要修改/etc/profile中SPARK_HOME的路径到对应的目录

**

1、去清华的镜像源下载相关文件 https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.5.6/

2、解压缩

bash 复制代码
tar zxvf spark-3.5.6-bin-hadoop3.tgz

3、移动到适当位置

bash 复制代码
mv spark-3.5.6-bin-hadoop3 /app/spark-3

4、下载scala

https://www.scala-lang.org/download/all.html

这个版本的spark用的是scala-2.12.20

https://www.scala-lang.org/download/2.12.20.html

linux下

https://downloads.lightbend.com/scala/2.12.20/scala-2.12.20.tgz

bash 复制代码
tar zxvf scala-2.12.20.tgz
mv scala-2.12.20 /app/scala-2

5、配置环境变量

nano /etc/profile

下面是完整的java、hadoop、scala、spark的配置环境

bash 复制代码
export JAVA_HOME=/app/openjdk-8
export HADOOP_HOME=/app/hadoop-3
export SCALA_HOME=/app/scala-2
export SPARK_HOME=/app/spark-3

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$SPARK_HOME/sbin:$SCALA_HOME/bin

source /etc/profile 环境变量生效

验证:

bash 复制代码
scala -version
spark-shell
:quit 退出

单机模式:

6、配置

进到/app/spark-3/conf中,复制一个文件出来

bash 复制代码
cd /app/spark-3/conf
cp spark-env.sh.template spark-env.sh

nano spark-env.sh

bash 复制代码
export SCALA_HOME=/app/scala-3
export JAVA_HOME=/app/openjdk-8
export SPARK_MASTER_IP=hadoop37
export SPARK_WOKER_CORES=2
export SPARK_WOKER_MEMORY=2g
export HADOOP_CONF_DIR=/app/hadoop-3/etc/hadoop
#export SPARK_MASTER_WEBUI_PORT=8080
#export SPARK_MASTER_PORT=7070

7、配置spark-defaults.conf

bash 复制代码
cd /app/spark-3/conf
cp spark-defaults.conf.template spark-defaults.conf
bash 复制代码
nano spark-defaults.conf
bash 复制代码
spark.master                     yarn
spark.hadoop.fs.defaultFS        hdfs://hadoop37:8020
spark.yarn.jars                  hdfs://hadoop37:8020/spark-jars/*.jar

可以启动了

bash 复制代码
cd /app/spark-3
sbin/start-all.sh

8、查看spark版本

bash 复制代码
spark-submit --version

9、启动spark

bash 复制代码
cd /app/spark-3
sbin/start-all.sh

停止所有:

bash 复制代码
sbin/stop-all.sh

10、jps 查看是否安装成功,比如我的是这样,Worker、Master启动完,证明spark和scala安装启动成功了,这是主节点:

bash 复制代码
19136 JobHistoryServer
18533 ResourceManager
18039 DataNode
18727 NodeManager
20584 Worker
18233 SecondaryNameNode
20681 Jps
17900 NameNode
20479 Master

11、子节点:

jps执行后:

bash 复制代码
1559 DataNode
1687 NodeManager
1853 Jps

12、ip:8080 ,如 172.20.94.37:8080 来查看验证集群的情况。


spark on yarn集群模式

我是先装一个docker,在此基础上安装zookeeer3.6.4,然后搭建集群。

bash 复制代码
容器化安装:
docker pull swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/zookeeper:3.6.4
docker tag  swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/zookeeper:3.6.4  docker.io/zookeeper:3.6.4

docker run --restart=always --log-driver json-file --log-opt max-size=100m --log-opt max-file=2 --name zookeeper -p 2181:2181 -p 8090:8080 -v /etc/localtime:/etc/localtime -d docker.io/zookeeper:3.6.4
启动了一个新的端口,可以查看相关命令,如类似下面的路径:
http://172.20.94.33:8090/commands

1、解压缩

bash 复制代码
tar zxvf spark-3.5.6-bin-hadoop3.tgz

2、移动到适当位置

bash 复制代码
mv spark-3.5.6-bin-hadoop3 /app/spark3-yarn

3、配置

bash 复制代码
cd /app/spark3-yarn/conf
cp spark-env.sh.template spark-env.sh

4、nano spark-env.sh

默认增加:

bash 复制代码
export JAVA_HOME=/app/openjdk-8
HADOOP_CONF_DIR=/app/hadoop-3/etc/hadoop
YARN_CONF_DIR=/app/hadoop-3/etc/hadoop

spark standalone集群模式 -------------

1、解压缩

bash 复制代码
tar zxvf spark-3.5.6-bin-hadoop3.tgz

2、移动到适当位置

bash 复制代码
mv spark-3.5.6-bin-hadoop3 /app/spark3-standalone

3、配置

bash 复制代码
cd /app/spark3-standalone/conf
cp spark-env.sh.template spark-env.sh

4、nano spark-env.sh

默认增加:

bash 复制代码
export JAVA_HOME=/app/openjdk-8
export SPARK_MASTER_HOST=hadoop37
export SPARK_MASTER_IP=hadoop37
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8080
export SPARK_WOKER_MEMORY=2g
export SPARK_WOKER_WEBUI_PORT=8081
export SPARK_HISTORY_OPTS="
-Dspark.history.fs.cleaner.enabled=true
-Dspark.history.fs.logDirectory=hdfs://hadoop37:8020/spark/logs
-Dspark.history.ui.port=18081"

5、cd /app/spark3-standalone/conf

bash 复制代码
cp spark-defaults.conf.template spark-defaults.conf
nano spark-defaults.conf

增加内容:

bash 复制代码
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://hadoop37:8020/spark/logs

6、cp workers.template workers

nano workers

增加内容:

bash 复制代码
hadoop37
hadoop38
hadoop39

7、创建spark/logs目录

bash 复制代码
hdfs dfs -mkdir -p /spark/logs

8、文件分发

bash 复制代码
scp -r /app/spark3-standalone/ hadoop38:/app/
scp -r /app/spark3-standalone/ hadoop39:/app/

9、启动spark

bash 复制代码
cd /app/spark3-standalone
./sbin/start-all.sh

停止所有:

bash 复制代码
./sbin/stop-all.sh

spark ha 集群模式 -------------

1、解压缩

bash 复制代码
tar zxvf spark-3.5.6-bin-hadoop3.tgz

2、移动到适当位置

bash 复制代码
mv spark-3.5.6-bin-hadoop3 /app/spark3-ha

3、配置

bash 复制代码
cd /app/spark3-ha/conf
cp spark-env.sh.template spark-env.sh

4、nano spark-env.sh

默认增加:

bash 复制代码
export JAVA_HOME=/app/openjdk-8
export SPARK_MASTER_WEBUI_PORT=8080
export SPARK_HISTORY_OPTS="
-Dspark.history.fs.cleaner.enabled=true
-Dspark.history.fs.logDirectory=hdfs://hadoop37:8020/spark/logs
-Dspark.history.ui.port=18081"
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=172.20.94.33:2181,172.20.94.33:2181
-Dspark.deploy.zookeeper.dir=/app/spark3-ha"

5、cd /app/spark3-ha/conf

bash 复制代码
cp spark-defaults.conf.template spark-defaults.conf

nano spark-defaults.conf

增加内容:

bash 复制代码
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://hadoop37:8020/spark/logs

6、cp workers.template workers

nano workers

增加内容:

bash 复制代码
hadoop37
hadoop38
hadoop39

7、创建spark/logs目录

bash 复制代码
hdfs dfs -mkdir -p /spark/logs

8、文件分发

bash 复制代码
scp -r /app/spark3-ha/ hadoop38:/app/
scp -r /app/spark3-ha/ hadoop39:/app/

9、启动spark

bash 复制代码
cd /app/spark3-ha
./sbin/start-all.sh

停止所有:

bash 复制代码
./sbin/stop-all.sh

10、启动standby状态的Master

比如在hadoop38

bash 复制代码
cd /app/spark3-ha
sbin/start-master.sh

11、启动历史服务器

bash 复制代码
cd /app/spark3-ha
sbin/start-history-server.sh

部署及运行的例子:

不指定模式,使用本地模式

bash 复制代码
cd /app/spark3-standalone
bin/spark-submit --class org.apache.spark.examples.SparkPi --deploy-mode client --executor-memory 1G --executor-cores 1 --num-executors 1 examples/jars/spark-examples_2.12-3.5.6.jar 5

指定运行模式 yarn:

bash 复制代码
cd /app/spark3-yarn
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --executor-memory 1G --executor-cores 1 --num-executors 1 examples/jars/spark-examples_2.12-3.5.6.jar 5

上传文件:

bash 复制代码
hdfs dfs -put /app/word.txt /

删除输出目录

bash 复制代码
hdfs dfs -rm -r  /out

运行:

bash 复制代码
bin/spark-submit --class org.rainpet.WordCount --master yarn --conf spark.yarn.jars=$SPARK_HOME/jars/* --deploy-mode client --executor-memory 1G --executor-cores 1 --num-executors 1 /app/scala-spark-cluster01-1.0-SNAPSHOT.jar /word.txt /out

windows下:

bash 复制代码
spark-submit --class org.rainpet.WordCount --master yarn --conf spark.yarn.jars=%SPARK_HOME%/jars/* --deploy-mode client --executor-memory 1G --executor-cores 1 --num-executors 1 scala-spark-cluster01-1.0-SNAPSHOT.jar /word.txt /out

本地文件

bash 复制代码
sc.textFile("file:///D:/java/workspace_gitee/cloud-compute-course-demo/scala-spark01/src/main/resources/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

hdfs文件

bash 复制代码
sc.textFile("/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
相关推荐
赞奇科技Xsuperzone3 小时前
【首发】DGX Spark 三机互连跑 Qwen3-235B-A22B-FP8!
大数据·分布式·spark
leijiwen5 小时前
Bsin X BDCM:从流量驱动到价值激励驱动的智能增长引擎
大数据·人工智能·web3
fruge5 小时前
Git 进阶技巧:分支管理、冲突解决、提交规范实操
大数据·git·elasticsearch
1***y1786 小时前
区块链跨链桥、 跨链桥到底在解决什么问题?
大数据·人工智能·区块链
金融小师妹7 小时前
基于LSTM-GARCH混合模型:降息预期驱动金价攀升,白银刷新历史峰值的蒙特卡洛模拟验证
大数据·人工智能·深度学习·1024程序员节
有味道的男人7 小时前
速卖通商品详情接口(速卖通API系列)
java·大数据·数据库
天远云服8 小时前
Golang 硬核实战:手撸 AES-CBC 算法,对接天远风控决策接口
大数据·api
天远数科8 小时前
Node.js 全栈实战:5分钟对接天远风控 API与数据清洗
大数据·api
老蒋新思维8 小时前
创客匠人 2025 峰会深度解析:AI 赋能垂直领域,创始人 IP 变现的差异化路径
大数据·网络·人工智能·网络协议·tcp/ip·重构·知识付费
EveryPossible8 小时前
大数据优化
大数据