Linux安装 spark 教程详解

目录

[一 准备安装包](#一 准备安装包)

[二 安装 scala](#二 安装 scala)

[三 修改配置文件](#三 修改配置文件)

[1)修改 workers 文件](#1)修改 workers 文件)

[2)修改 spark-env.sh文件](#2)修改 spark-env.sh文件)

[四 进入 spark 交互式平台](#四 进入 spark 交互式平台)


一 准备安装包

可以自行去 spark 官网下载想要的版本

这里准备了 spark3.1.2的网盘资源

链接: https://pan.baidu.com/s/1Brm6XqaqYQnXQwOd8mUt7A?pwd=2bye 提取码: 2bye

下载后上传至 linux 服务器上

这里放在了 /opt/install 目录

解压至 /opt/soft 目录

复制代码
tar -zxf /opt/install/spark-3.1.2-bin-hadoop3.2.tgz -C /opt/soft/

改个名

复制代码
cd /opt/soft

mv spark-3.1.2-bin-hadoop3.2/ spark312

修改一下环境变量

复制代码
#SPARK_HOME
export SPARK_HOME=/opt/soft/spark312
export PATH=$SPARK_HOME/bin:$PATH

二 安装 scala

安装过scala的 朋友可以跳过此步骤

scala 的安装比较简单,spark 的运行环境需要 scala

这里同样准备了网盘资源

链接: https://pan.baidu.com/s/1ua01OvTYjFQyG82AG1g1yg?pwd=imc6 提取码: imc6

下载后上传至 linux 服务器上

这里放在了 /opt/install 目录

解压至 /opt/soft 目录

复制代码
tar -zxf /opt/install/scala-2.12.10.tgz -C /opt/soft/

解压后改个名

复制代码
mv scala-2.12.10/ scala212

修改环境变量,末尾添加下面内容

复制代码
#SCALA_HOME
export SCALA_HOME=/opt/soft/scala212
export PATH=$SCALA_HOME/bin:$PATH

修改后保存退出,source一下

复制代码
 source /etc/profile

三 修改配置文件

进入 spark312/conf 目录

将 两个临时文件cp 一下

复制代码
cp spark-env.sh.template spark-env.sh

cp workers.template workers

1)修改 workers 文件

复制代码
vim workers

由于这里就是单机版,所以就不做修改

2)修改 spark-env.sh文件

复制代码
vim spark-env.sh

添加配置,这里根据自己的各个安装包的位置来

复制代码
export SCALA_HOME=/opt/soft/scala212
export JAVA_HOME=/opt/soft/jdk180
export SPARK_HOME=/opt/soft/spark312
export HADOOP_INSTALL=/opt/soft/hadoop313
export HADOOP_CONF_DIR=$HADOOP_INSTALL/etc/hadoop
export SPARK_MASTER_IP=172.25.38.169
export SPARK_DRIVER_MEMORY=2G
export SPARK_EXECUTOR_MEMORY=2G
export SPARK_LOCAL_DIRS=/opt/soft/spark312

四 进入 spark 交互式平台

输入命令回车

复制代码
 spark-shell

未给参数默认等同于下面的命令

复制代码
spark-shell --master local[*]

创建一个 RDD

复制代码
sc.parallelize(1 to 10,3)
相关推荐
天辛大师1 分钟前
天辛大师也谈大模型GEO技术,虚构与误导的重读
大数据·人工智能·决策树·随机森林·启发式算法
金融小师妹5 分钟前
基于多因子流动性模型的“黄金闪崩”解析:利率预期强化与资金再平衡驱动的金价8%下跌机制
大数据·人工智能·svn·能源
焦糖玛奇朵婷6 分钟前
盲盒小程序开发|解锁开箱新体验[特殊字符]
大数据·开发语言·程序人生·小程序·软件需求
1104.北光c°6 分钟前
基于Canal + Kafka的高可用关注系统:一主多从关系链
java·开发语言·笔记·分布式·程序人生·kafka·一主多从
黎阳之光7 分钟前
AI赋能安全新生态 黎阳之光锚定国家政策筑造数智防线
大数据·人工智能·算法·安全·数字孪生
WHD3068 分钟前
企业数据安全体系建设指南:从风险识别到技术落地的全流程(2026版)
大数据·网络·人工智能·安全·系统架构·密码学·安全架构
蜜獾云1 小时前
Kafka(1)-Kafka基本术语
分布式·kafka
天远云服1 小时前
驾培系统车辆核验实战:PHP集成天远二手车估值API实现学员车辆信息自动化管理
大数据·开发语言·自动化·php
AC赳赳老秦1 小时前
OpenClaw办公文档处理技能:批量转换PDF/Excel,提取数据高效办公
大数据·人工智能·python·django·去中心化·deepseek·openclaw
环小保1 小时前
半导体制造的绿色“隐形”战场:废气治理如何“精准狙击”?
大数据·人工智能