伪分布式Spark集群搭建

一、软件环境

|-------------|-------------|---------------------------------------------|
| | | |
| VMware虚拟机 | 16 | VMware-workstation-full-16.2.2-19200509.exe |
| SSH连接工具 | | FinalShell |
| Linux OS | CentOS7.5 | CentOS-7.5-x86_64-DVD-1804.iso |
| JDK | 1.8 | jdk-8u161-linux-x64.tar.gz |
| Spark | 3.2.1 | spark-3.2.1-bin-hadoop2.7.tgz |

二、实训操作步骤

技能点1:Final Shell连接虚拟机

①打开虚拟机终端,输入命令ifconfig,查看虚拟机的IP地址。

②打开Final Shell,进行SSH连接虚拟机。

③设置IP地址,使用root账户和密码进行连接登录。

技能点2:上传Spark安装包并解压

①上传Spark安装包

使用FinalShell软件将HBase安装包spark-3.2.1-bin-hadoop2.7.tgz上传至虚拟机的/opt目录下。

②解压Spark安装包

使用"tar"命令将HBase解压至/usr/local目录下,具体命令如下:

复制代码
tar -zxvf /opt/spark-3.2.1-bin-hadoop2.7.tgz -C /usr/local/

技能点3:配置spark-env.sh文件

①进入到Spark安装包的conf目录下,具体命令如下:

复制代码
cd /usr/local/spark-3.2.1-bin-hadoop2.7/conf

②将spark-env.sh.template复制为spark-env.sh,具体命令如下:

复制代码
cp spark-env.sh.template spark-env.sh

③输入"vi spark-env.sh"命令,打开文件,在文件末尾添加如下代码:

复制代码
#Jdk安装路径

export JAVA_HOME=/usr/local/jdk1.8.0_161      

#Hadoop安装路径

export HADOOP_HOME=/usr/local/hadoop-3.1.4

#Hadoop配置文件的路径                

export HADOOP_CONF_DIR=/usr/local/hadoop-3.1.4/etc/hadoop    

#Spark主节点的IP地址或机器名

export SPARK_MASTER_IP=hadoop                                                            

#Spark本地的IP地址或机器名

export SPARK_LOCAL_IP=hadoop  

技能点4:启动测试Spark集群

①目录切换到sbin目录下启动集群。

复制代码
#进入到sbin目录下
cd /usr/local/spark-3.2.1-bin-hadoop2.7/sbin

#启动spark集群

./start-all.sh

②jps查看进程。

③切换到Spark安装包的/bin目录下(cd /usr/local/spark-3.2.1-bin-hadoop2.7/bin),使用SparkPi来计算Pi的值。

复制代码
#切换到Spark安装包的/bin目录下
cd /usr/local/spark-3.2.1-bin-hadoop2.7/bin
#运行程序
./run-example SparkPi 2

技能点5:浏览器访问Spark 页面

①关闭防火墙 输入命令"systemctl stop firewalld.service"

②打开浏览器访问Spark自带web页面 浏览器输入网址:http://192.168.15.128:8080/

③效果图如下

相关推荐
暴躁小师兄数据学院1 小时前
【AI大数据工程师特训笔记】第14讲:Linux操作系统与shell脚本
大数据·人工智能·笔记
2601_959986242 小时前
M4Markets:把工具可用性做到位——逻辑梳理与提示整理
大数据·人工智能
薛定猫AI3 小时前
Codex 与 Claude Code 安装配置完全指南
大数据·人工智能·架构
SelectDB3 小时前
从 Machine-Readable 到 Agent-Ready:面向智能体的数据库接口演进
大数据·数据库·agent
前沿AI3 小时前
AI营销服一体化方案亮相2026中国汽车经销商大会,助力汽车销售全链路提效
大数据·人工智能·汽车
KaMeidebaby4 小时前
卡梅德生物技术快报|peg 修饰调控 MXene/WS2 异质结,氨气传感器制备与机理研究
大数据·前端·人工智能·架构·spark·新浪微博
ydyd202604214 小时前
设备管理应用推荐2026深度测评!
大数据·人工智能·机器学习
志栋智能4 小时前
超自动化巡检:降低运维总成本(TCO)的有效路径
大数据·运维·网络·人工智能·自动化
LONGZETECH4 小时前
软硬协同+故障注入:无人机仿真维修与操控仿真底层算法逻辑拆解
大数据·c语言·算法·3d·unity·无人机
码农小白AI4 小时前
AI报告审核与IACheck:自动化检测全面铺开后,为什么报告审核反而成了新的效率瓶颈?
大数据·人工智能·自动化