【scau大数据技术与原理2】综合性实验Spark集群的安装和使用——安装启动spark shell篇

实验内容简介:

Spark是一个分布式计算框架,常用于大数据处理。本次实验中,首先设计一个包含主节点和从节点的Spark集群架构,并在CentOS的Linux环境下进行搭建。通过下载并解压Spark安装包,配置环境变量和集群参数,部署Spark集群。接着言编写Spark应用程序,并将其打包,通过spark-submit命令将应用程序提交到Spark集群中运行,观察任务分配和执行进度,验证集群的性能和正确性。

安装步骤:

1.安装下载文件

Spark安装包下载地址: http://spark.apache.org

进入以后点击左上角download

跳转到下载页面中,提供了几个下载选项,主要是Spark release及Package type的选择。

第1项Spark release一般默认选择最新的发行版本。

第2项package type 则选择**"Pre-build with user-provided Hadoop can use with most Hadoopdistributions"**,可适用于多数Hadoop版本。

选择好之后,再点击第3项给出的链接就可以下载Spark了。跳转后再次点击链接即可。

2.

等待下载......

3.下载完成通过rz上传到虚拟机

下图操作在集群的主机zkpk用户下执行

4.在用户zkpk的目录下,试图解压但无权限

zkpk@scala00 \~$ sudo tar -zxf ~/spark-3.5.1-bin-without-hadoop.tgz -C /usr/local/

We trust you have received the usual lecture from the local System Administrator. It usually boils down to these three things: #1) Respect the privacy of others. #2) Think before you type. #3) With great power comes great responsibility.

sudo password for zkpk: zkpk is not in the sudoers file. This incident will be reported.

用户 zkpk 没有在系统的 sudoers 文件中,因此没有权限使用 sudo 命令。sudo 允许用户以超级用户(或其他用户)的权限执行命令。要解决这个问题,需要以具有 sudo 权限的用户(通常是 root 用户)身份登录,并编辑 sudoers 文件来添加 zkpk 用户。

于是,在root用户下,执行命令:sudovisudo

找到类似下图的地方

添加zkpk ALL=(ALL:ALL) ALL 使得zkpk 用户有 sudo 权限

保存好,切换回root用户下

5.继续解压

解压安装包spark-3.5.1-bin-without-hadoop.tgz至路径/usr/local:

$ sudo tar -zxf ~/spark-3.5.1-bin-without-hadoop.tgz -C /usr/local/

$ cd /usr/local

$ sudo mv ./spark-3.5.1-bin-without-hadoop/ ./spark # 更改文件夹名,改为spark

$ sudo chown -R zkpk ./spark #更改用户名zkpk

6.配置class path

由于已经遗忘路径,通过以下方式查找

zkpk@scala00 bin$ pwd

/home/zkpk/hadoop-3.1.3/bin
zkpk@scala00 bin$ /home/zkpk/hadoop-3.1.3/bin/hadoop classpath

/home/zkpk/hadoop-3.1.3/etc/hadoop:/home/zkpk/hadoop-3.1.3/share/hadoop/common/lib/*:/home/zkpk/hadoop-3.1.3/share/hadoop/common/*:/home/zkpk/hadoop-3.1.3/share/hadoop/hdfs:/home/zkpk/hadoop-3.1.3/share/hadoop/hdfs/lib/*:/home/zkpk/hadoop-3.1.3/share/hadoop/hdfs/*:/home/zkpk/hadoop-3.1.3/share/hadoop/mapreduce/lib/*:/home/zkpk/hadoop-3.1.3/share/hadoop/mapreduce/*:/home/zkpk/hadoop-3.1.3/share/hadoop/yarn:/home/zkpk/hadoop-3.1.3/share/hadoop/yarn/lib/*:/home/zkpk/hadoop-3.1.3/share/hadoop/yarn/*

指定 Spark 应用程序在运行时需要的额外的类路径(classpath)是

export SPARK_DIST_CLASSPATH=$(/home/zkpk/hadoop-3.1.3/bin/hadoop classpath)

命令会执行 hadoop classpath 命令,并将输出的完整 classpath 赋值给 SPARK_DIST_CLASSPATH 环境变量。

7.启动sparkshell成功

相关推荐
得物技术3 天前
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流
大数据·llm·ai编程
久美子3 天前
AI驱动数仓建设的Harness工程实践——本体建模、知识分层与上下文工程
大数据
大树884 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
大志哥1234 天前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)
大数据·elasticsearch
果丁智能4 天前
物联网智能锁赋能集中式住宿:身份核验与远程权限管控的全链路技术实践
大数据·人工智能·物联网·智能家居
ApacheSeaTunnel4 天前
实战演示 | 基于 Apache SeaTunnel 与 Apache DolphinScheduler 实现 MySQL 到 Doris 离线定时增量同步
大数据·mysql·开源·doris·数据集成·seatunnel·数据同步
weixin_397574094 天前
PDF复杂表格的1:1还原引擎:跨页表格自动拼接技术实战
大数据·人工智能·pdf
极光代码工作室4 天前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
秋名山码民4 天前
Graph RAG 深度解析:从向量检索到知识推理的技术演进
大数据·人工智能·rag
JLWcai202510094 天前
铸造领域树脂砂轮|金利威多场景解决方案,20 + 配方覆盖全需求
mongodb·zookeeper·eureka·spark·rabbitmq·memcached·storm