Spark 安装(集群模式)

Spark 安装(集群模式)

实际生产环境一般不会用本地模式搭建Spark。生产环境一般都是集群模式。下面就给出了安装集群模式的步骤。

运行环境

  • 操作系统 ------ Spark一般都是部署在Linux上,这里用的是Ubuntu 14.04及以上版本,也可以使用CentOS,RedHat等Linux系统,本教程用的是 Ubuntu 系统。
  • Spark ------ Apache Spark 2.X

因为是集群模式,所以需要多个物理节点,可以使用阿里云、腾讯云。也可以在自己机器搭建虚拟机集群。

在主节点安装Spark

安装前准备

修改host文件

编辑 hosts 文件,并增加下面记录

复制代码
sudo nano /etc/hostsMASTER-IP masterSLAVE01-IP slave01SLAVE02-IP slave02

注意把 MASTER-IP、SLAVE01-IP、SLAVE02-IP 替换成你自己机器的IP地址。

安装Java 7
复制代码
sudo apt-get install python-software-propertiessudo add-apt-repository ppa:webupd8team/javasudo apt-get updatesudo apt-get install oracle-java7-installer
安装Scala
复制代码
sudo apt-get install scala
配置SSH

安装 openssh-serveropenssh-client

生成密钥
复制代码
ssh-keygen -t rsa -P ""
配置无密码SSH

把 master 节点 .ssh/id_rsa.pub复制到 .ssh/authorized_keys。其他 Slave 节点跟 Master 一样的操作过程。

用SSH连接测试

用SSH命令连接到其他任意主机,看看是否需要密码。如果没提示输入密码,则免密码连接配置成功。

复制代码
ssh slave01ssh slave02

安装Spark

下载Spark

可以从Spark官网下载最新版本

http://spark.apache.org/downloads.html

解压tar包
复制代码
tar xzf spark-2.0.0-bin-hadoop2.6.tgz
安装配置

在用户 home 目录下编辑 .bashrc,并新增环境变量。

复制代码
export JAVA_HOME=<path-of-Java-installation> (eg: /usr/lib/jvm/java-7-oracle/)export SPARK_HOME=<path-to-the-root-of-your-spark-installation> (eg: /home/dataflair/spark-2.0.0-bin-hadoop2.6/)export PATH=$PATH:$SPARK_HOME/bin

让环境变量生效
source .bashrc

编辑 spark-env.sh
cd $SPARK_HOME/conf/

在该目录下并没有 spark-env.sh 文件,得从 spark-env.sh.tmplate 复制一个文件,文件名修改为 spark-env.sh
cp spark-env.sh.template spark-env.sh

spark-env.sh 新增下面的环境变量

复制代码
export JAVA_HOME=<path-of-Java-installation> (eg: /usr/lib/jvm/java-7-oracle/)export SPARK_WORKER_CORES=8

新增 Slave 节点

$SPARK_HOME/conf/ 目录下创建 slaves 配置文件,并在该文件写入两个节点的主机名:

复制代码
slave01slave02

在 Slave 节点安装 Spark

安装前准备

  • 编辑hosts文件
    • 安装java 7
    • 安装Scala

这些步骤跟Master的一样

把Spark安装包拷贝到所有Slave节点

先压缩安装包
tar czf spark.tar.gz spark-2.0.0-bin-hadoop2.6

把压缩好的安装包拷贝到 Slave 节点

复制代码
scp spark.tar.gz slave01:~scp spark.tar.gz slave02:~

注意:这些命令在 Master 节点执行注意:这些命令在 Master 节点执行

在Slave节点解压安装包

复制代码
tar xzf spark.tar.gz

注意:该命令在Slave节点执行

到这里,Spark 已经在 Master 和 Slave 节点安装并配置完成。可以启动 Spark 集群了。

启动Spark集群

启动Spark服务

复制代码
sbin/start-all.sh

注意:该命令在Master节点执行

检查服务是否启动成功

检查Master节点进程

复制代码
$jpsMaster

检查Slave节点进程

复制代码
$jpsWorker

Spark Web UI

spark Master节点UI界面地址和端口
http://MASTER-IP:8080/

从这里可以看到 Spark 的 Slave 节点信息,执行中的 application,集群资源等信息

spark 应用程序UI界面地址和端口
http://MASTER-IP:4040/

停止Spark集群

可以在Master执行下面命令停止Spark集群
sbin/stop-all.sh

相关推荐
武子康1 天前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
大大大大晴天1 天前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
武子康3 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
肌肉娃子4 天前
20260227.spark.Spark 性能刺客:千万别在 for 循环里写 withColumn
spark
初次攀爬者4 天前
ZooKeeper 实现分布式锁的两种方式
分布式·后端·zookeeper
武子康4 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP5 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库5 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
AI周红伟5 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
B站计算机毕业设计超人5 天前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法