Spark SQL大数据分析快速上手-完全分布模式安装

【图书介绍】《Spark SQL大数据分析快速上手》-CSDN博客

《Spark SQL大数据分析快速上手》【摘要 书评 试读】- 京东图书

大数据与数据分析_夏天又到了的博客-CSDN博客

Hadoop完全分布式环境搭建步骤-CSDN博客,前置环境安装参看此博文

完全分布模式也叫集群模式。将Spark目录文件分发到其他主机并配置workers节点,即可快速配置Spark集群(需要先安装好JDK并配置好从Master到Worker的SSH信任)。具体步骤 如下:

【免费送书活动】《Spark SQL大数据分析快速上手》-CSDN博客

步骤1: 配置计划表。

集群主机配置如表2-1所示。所有主机在相同目录下安装JDK,Spark安装到所有主机的相同目录下,如/app/。

步骤2: 准备3台Linux虚拟机搭建集群环境。

这里推荐直接使用下面链接讲解的、配置好的Hadoop完全分布式环境,稍微做些修改,即可快速搭建Spark完全分布模式环境。

Hadoop完全分布式环境搭建步骤_hadoop 开发环境搭建及hdfs初体验-CSDN博客

步骤3: 解压并配置Spark。

在server101上解压Spark:

复制代码
$ tar -zxvf ~/spark-3.3.1-bin-hadoop3.tgz -C /app/

$ mv spark-3.3.1-bin-hadoop3 spark-3.3.1

修改spark-env.sh文件,在文件最开始添加JAVA_HOME环境变量:

复制代码
$ vim /app/spark-3.3.1/sbin/spark-conf.sh

export JAVA_HOME=/usr/java/jdk1.8.0-361

修改worker文件,添加所有主机在worker节点上的名称:

复制代码
$ vim /app/spark-3.3.1/conf/workers

server101

server102

server103

使用scp将Spark目录分发到所有主机相同的目录下:

复制代码
$ scp -r /app/spark-3.3.1  server102:/app/

$ scp -r /app/spark-3.3.1  server103:/app/
步骤4: 启动Spark。

在主Spark上执行start-all.sh

$ /app/spark-3.3.1/sbin/start-all.sh

启动完成以后,查看master主机的8080端口,如图2-8所示。

步骤5: 测试。

由于已经配置了Hadoop集群,并且与Spark的worker节点在相同的主机上,因此在集群环境下,一般是访问HDFS上的文件:

复制代码
$spark-shell --master spark://server101:7077

scala> val rdd1 = sc.textFile("hdfs://server101:8082/test/a.txt");

图2-8 master主机的8080端口

将结果保存到HDFS,最后查看HDFS上的计算结果即可:

复制代码
scala> rdd1.flatMap(_.split("\\s+")).map((_,1)).reduceByKey(_+_). saveAsTextFile("hdfs://server101:8020/out004");
相关推荐
不会写DN8 分钟前
Git 开发中最常用的命令与场景
大数据·git·elasticsearch
me8329 分钟前
【Linux】Jenkins连接云服务器Docker失败,全程排查。(注意)
linux·服务器·jenkins
源码之家12 分钟前
计算机毕业设计:Python 共享单车数据分析可视化系统 Flask框架 可视化 大数据 机器学习 深度学习 数据挖掘(建议收藏)✅
大数据·python·数据挖掘·数据分析·汽车·课程设计·美食
xingyuzhisuan17 分钟前
遇到GPU驱动冲突问题,云厂商通常提供怎样的技术支持?
大数据·人工智能·gpu算力
码农小白AI25 分钟前
AI审核驱动动态预警:IACheck如何重塑环境数据一致性监测与质量管控新模式
大数据·人工智能
同聘云26 分钟前
阿里云国际站独立服务器有哪些优点?独立服务器和云服务器的区别
服务器·阿里云·云计算
LaughingZhu27 分钟前
Product Hunt 每日热榜 | 2026-04-02
大数据·人工智能·经验分享·搜索引擎
福客AI智能客服30 分钟前
低价竞争之外,商家正在重新思考客服的价值
大数据·人工智能
GJGCY40 分钟前
企业级AI智能体平台技术评测:9款产品架构差异与生产落地能力分析
大数据·人工智能·ai·智能体
专注API从业者41 分钟前
淘宝 API 调用链路追踪实战:基于 SkyWalking/Pinpoint 的全链路监控搭建
大数据·开发语言·数据库·skywalking