CentOS7下Spark-2.4.3-bin-without-hadoop版本安装详细图文教程

1、该Spark版本说明

1、依赖关系

  • 该版本不包含Hadoop的依赖库。
  • 适用于那些不直接需要Hadoop集群或者已经通过其他方式管理Hadoop依赖的用户。
  • 用户可以在不依赖Hadoop的环境中运行Spark,或者如果已有一个Hadoop环境但希望使用Spark自带的Hadoop客户端库,也可以选择这个版本。

2、运行环境与配置

  • 由于不包含Hadoop依赖,用户需要自行配置其他分布式文件系统(如Amazon S3、Alluxio等)或已存在的Hadoop环境(如果使用Spark自带的Hadoop客户端库)。
  • 配置时可能需要设置额外的环境变量和配置文件,以确保Spark能够正确访问和使用其他存储系统。

3、使用场景与优势

  • 适用于那些希望在不依赖Hadoop的环境中运行Spark的用户。
  • 提供了更灵活的选择,允许用户根据自己的需求选择其他分布式文件系统或存储解决方案。
  • 可能有助于降低对Hadoop生态系统的依赖,从而降低运维成本和复杂性。

2、Spark安装配置

2.1、安装包下载

上传spark-2.4.3-bin-without-hadoop.tgz至/opt目录下,或下载

bash 复制代码
cd /opt/
#下载
wget https://archive.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-without-hadoop.tgz

2.2、解压spark-2.4.3-bin-without-hadoop.tgz

bash 复制代码
cd /opt/
tar xvf spark-2.4.3-bin-without-hadoop.tgz
sudo mv spark-2.4.3-bin-without-hadoop spark-2.4.3

2.3、配置spark环境变量以及备份配置文件

bash 复制代码
cd /opt/spark-2.4.3/conf
cp spark-env.sh.template spark-env.sh
cp spark-defaults.conf.template spark-defaults.conf
cp metrics.properties.template metrics.properties

1、配置环境变量,/etc/profile文件配置

bash 复制代码
vi /etc/profile
#添加以下内容
export SPARK_HOME=/opt/spark-2.4.3
export PATH=$PATH:$SPARK_HOME/bin
#生效
source /etc/profile

2、spark-env.sh文件配置

bash 复制代码
vim spark-env.sh
#在下面增加以下内容
bash 复制代码
export JAVA_HOME=/opt/jdk1.8
export HADOOP_HOME=/opt/server/hadoop-2.7.2
export HADOOP_CONF_DIR=/opt/server/hadoop-2.7.2/etc/hadoop
export SPARK_DIST_CLASSPATH=$(/opt/server/hadoop-2.7.2/bin/hadoop classpath)
export SPARK_MASTER_HOST=127.0.0.1
export SPARK_MASTER_PORT=7077
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=50 -Dspark.history.fs.logDirectory=hdfs://127.0.0.1:9000/spark-eventlog"

3、修改默认的配置文件

bash 复制代码
vim spark-defaults.conf
#在下面增加以下内容
bash 复制代码
spark.master                     spark://dss20:7077
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://dss20:9000/spark-eventlog
spark.serializer                 org.apache.spark.serializer.KryoSerializer
spark.driver.memory              3g
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://dss20:9000/spark-eventlog
spark.eventLog.compress          true

4、配置工作节点

bash 复制代码
vi workers
#添加以下内容
dss20

5、配置hive

bash 复制代码
cp /opt/server/hive-2.3.3/conf/hive-site.xml /opt/spark-2.4.3/conf

6、验证应用程序

bash 复制代码
/opt/spark-2.4.3/sbin/start-all.sh

7、验证安装

bash 复制代码
/opt/spark-2.4.3/bin/spark-sql -e "show databases"

访问spark的默认端口号为8080

相关推荐
人工智能培训23 分钟前
打造行业知识图谱三步走
大数据·人工智能·机器学习·3d·知识图谱·agent
信徒_1 小时前
做市商概念
大数据·区块链
电商API_180079052471 小时前
免 TOP 入驻,第三方淘宝商品详情 API 快速接入与代码示例
java·大数据·开发语言·数据库·爬虫·数据分析
succtent1 小时前
行业科普|FSC森林认证全解析:标准体系、标签分类、审核流程与行业价值
大数据·人工智能·产品运营
闻道参看1 小时前
2026企业GEO选型指南:主流AI优化服务商对比
大数据·人工智能
Elastic 中国社区官方博客1 小时前
13.7万人,零人工决策:使用 Elasticsearch 实现智能体驱动的灾害响应系统
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
明航咨询—张老师2 小时前
AI工具狂飙时代:三款实用AI产品深度横向测评
大数据·人工智能·算法·it
二等饼干~za8986682 小时前
2026 主流 GEO 优化源码厂商横向测评:云罗 GEO / 摘星智能 / 棋引科技技术、部署、性价比全维度对比
大数据·人工智能·科技
志栋智能2 小时前
超自动化巡检:在混合云时代更显其必要性
大数据·运维·网络·人工智能·自动化
招标采购导航网3 小时前
招标采购导航网的召回通道设计:为什么同时用协同过滤、向量召回、规则召回三种策略
大数据·人工智能