9_Spark安装

下载spark压缩包

通过百度网盘分享的文件:spark-2.0.2-bin-hadoop2.6.tgz

链接:https://pan.baidu.com/s/1lXPExVxxdkdx1QjiLlaorw

提取码:yc69

通过百度网盘分享的文件:scala-2.11.8.tgz

链接:https://pan.baidu.com/s/1YR4enZqTgE-Yy3Jb456JIQ

提取码:yc69

1.Scala配置
  • 分别在master、slave1、slave2上执行。

解压Scala压缩包,进入解压后的Scala目录

pwd

复制代码
vim /root/.bashrc

添加环境变量:

text 复制代码
#set scala environment
export SCALA_HOME=/usr/local/src/scala-2.11.8
export PATH=$PATH:${SCALA_HOME}/bin
#set spark environment
export SPARK_HOME=/usr/local/src/spark-2.0.2-bin-hadoop2.6
export PATH=$PATH:${SPARK_HOME}/bin

验证:

复制代码
bash
scala -version
2.Spark集群配置

解压Spark压缩包

进入解压后的Spark目录

cd conf/

添加和修改slaves文件
复制代码
cp slaves.template slaves
vim slaves
# 将 localhost 修改为:
slave1
slave2
添加和修改 spark-env.sh 文件
复制代码
cp spark-env.sh.template spark-env.sh
vim spark-env.sh

添加配置:

text 复制代码
export SCALA_HOME=/usr/local/src/scala-2.11.8
export JAVA_HOME=/usr/local/src/jdk1.8.0_181
export HADOOP_HOME=/usr/local/src/hadoop-2.6.1
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_WEBUI_PORT=8989
SPARK_MASTER_IP=master
SPARK_LOCAL_DIRS=/usr/local/src/spark-2.0.2-bin-hadoop2.6
SPARK_DRIVER_MEMORY=1G
分发Spark到slave节点
复制代码
# 进入 /usr/local/src 目录
scp -rp spark-2.0.2-bin-hadoop2.6/ slave1:`pwd`
scp -rp spark-2.0.2-bin-hadoop2.6/ slave2:`pwd`
3.启动集群
复制代码
cd sbin/
./start-all.sh
jps
4.网页监控面板

master:8989

5.验证

进入Spark目录

复制代码
# 集群 Standalone
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 ./examples/jars/spark-examples_2.11-2.0.2.jar 10
# 集群 spark on Yarn
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster ./examples/jars/spark-examples_2.11-2.0.2.jar 10

相关推荐
极创信息1 小时前
Linux挖矿病毒深度清理实战教程,从进程隐藏、Rootkit驻留到彻底根除
java·大数据·linux·运维·安全·tomcat·健康医疗
SEO_juper1 小时前
Semrush 蓝海关键词筛选,AI 一键拓展完整词库
大数据·谷歌·seo·geo·gemini·询盘·b2b
linux修理工3 小时前
使用codebuddy学习kafka
分布式·学习·kafka
阿 才3 小时前
跟文件系统(busybox)的构建
大数据·hadoop·分布式
宁波鹿语心理3 小时前
过度卷入的三角化:养育者情感投射对青少年自我边界形成的结构性影响及干预路径
大数据
逐米时代3 小时前
制造型企业AI智能体实施步骤详解:提升协同效率的实战指南
大数据·人工智能
老纪4 小时前
Redis分布式锁进第九零篇
数据库·redis·分布式
大嘴皮猴儿4 小时前
跨境电商运营笔记:我是如何用工具解决多语言素材问题的
大数据·人工智能·新媒体运营·自动翻译·教育电商
Amy187021118234 小时前
分布式光伏防孤岛保护:技术逻辑、标准演进与工程实践全解析
分布式
赤龙ERP4 小时前
赤龙一周观察 · 6月第2周
大数据·人工智能·ai·erp