【hadoop】Spark的安装部署

一、单机模式

步骤:

1、使用XFTP将Spark安装包spark-2.4.8-bin-hadoop2.7.tgz发送到master机器的主目录。

2、解压安装包:

复制代码
tar -zxvf ~/spark-2.4.8-bin-hadoop2.7.tgz

3、修改文件夹的名字,将其改为flume,或者创建软连接也可:

复制代码
mv ~/spark-2.4.8-bin-hadoop2.7 ~/spark

4、开箱即用;

二、Spark Standalone模式集群

步骤:

1、使用vim命令配置Spark的环境配置文件,原本应是不存在的:

复制代码
cd ~/spark/conf

vim spark-env.sh

配置内容如下(注意此处的所有路径、主机名):

复制代码
# jdk安装目录

export JAVA_HOME=/home/hadoop/jdk1.8.0_311

# Hadoop配置文件目录

export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.9.2/etc/hadoop

# Hadoop根目录

export HADOOP_HOME=/home/hadoop/hadoop-2.9.2

# Web UI端口号

SPARK_MASTER_WEBUI_PORT=8888

# 配置ZooKeeper

SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master:2181,slave1:2181,slave2:2181 -Dspark.deploy.zookeeper.dir=/myspark"

修改完后保存。

2、配置slaves:

复制代码
vim slaves

添加以下内容:

复制代码
master

slave1

slave2

3、接着把配置好的Spark安装目录使用scp命令发送到其他节点:

复制代码
scp -r ~/spark hadoop@slave1:~

scp -r ~/spark hadoop@slave2:~

4、启动ZooKeeper,略;

5、在master节点上,带路径启动Spark集群:

复制代码
~/spark/sbin/start-all.sh

测试

浏览器输入:master:8888,如下:

三、Spark on YARN模式

实际上,Spark on YARN模式,即把Spark应用程序跑在YARN集群之上,通过第二节配置好Spark Standalone模式后,已经可以在任意节点上,执行spark-submit脚本把任务提交至YARN实现Spark on YARN。而区别就是使用这种方式提交任务的话,就不需要启动Spark集群了。

相关推荐
计算机编程小央姐5 小时前
【Spark+Hive+hadoop】基于spark+hadoop基于大数据的人口普查收入数据分析与可视化系统
大数据·hadoop·数据挖掘·数据分析·spark·课程设计
鲲志说5 小时前
数据洪流时代,如何挑选一款面向未来的时序数据库?IoTDB 的答案
大数据·数据库·apache·时序数据库·iotdb
没有bug.的程序员5 小时前
MVCC(多版本并发控制):InnoDB 高并发的核心技术
java·大数据·数据库·mysql·mvcc
nju_spy7 小时前
南京大学 - 复杂结构数据挖掘(一)
大数据·人工智能·机器学习·数据挖掘·数据清洗·南京大学·相似性分析
哈哈很哈哈8 小时前
Flink SlotSharingGroup 机制详解
java·大数据·flink
豆豆豆大王9 小时前
头歌Kingbase ES内连接、外连接查询
大数据·数据库·elasticsearch
在未来等你9 小时前
Elasticsearch面试精讲 Day 20:集群监控与性能评估
大数据·分布式·elasticsearch·搜索引擎·面试
是店小二呀11 小时前
整合亮数据Bright Data与Dify构建自动化分析系统
大数据·自动化·dify·mcp·bright data
阿里云大数据AI技术12 小时前
云栖2025 | 阿里云自研大数据平台ODPS 重磅升级:全面支持AI计算和服务
大数据·人工智能
人间凡尔赛13 小时前
elasticsearch安装插件
大数据·elasticsearch·搜索引擎