Spark 单机模式安装与测试全攻略

Spark 单机模式安装步骤

Spark 安装

  1. 上传安装包 :将下载好的 Spark 安装包(如 spark-3.3.0-bin-hadoop3.tgz)通过 FTP 工具或 scp 命令上传至 Linux 服务器的指定目录,例如/opt/software

  2. 解压安装包 :使用tar -zxvf spark-3.3.0-bin-hadoop3.tgz -C /opt/installs/命令将安装包解压到/opt/installs目录。

  3. 重命名 :为了方便后续操作,将解压后的文件夹重命名,执行mv /opt/installs/spark-3.3.0-bin-hadoop3 /opt/installs/spark

  4. 创建软链接 :通过ln -s /opt/installs/spark /opt/spark创建软链接,简化路径访问。

  5. 配置环境变量 :编辑/etc/profile文件,添加如下内容:

    复制代码
    export SPARK_HOME=/opt/spark
    export PATH=$PATH:$SPARK_HOME/bin

    保存后执行source /etc/profile刷新环境变量。

Anaconda 安装(Python 环境)

Anaconda 不仅包含 Python,还具备资源环境隔离功能,方便不同版本环境的测试开发,是 Spark 的理想 Python 环境。

  1. 下载与上传 :从Anaconda 官网 archive 页面下载合适版本(如 Anaconda3-2022.10-Linux-x86_64.sh),上传至服务器/opt/software目录。

  2. 安装 Anaconda :执行bash /opt/software/Anaconda3-2022.10-Linux-x86_64.sh,按照提示完成安装,建议安装在/opt/installs/anaconda3目录。

  3. 环境变量配置 :编辑/etc/profile,添加:

    复制代码
    export ANACONDA_HOME=/opt/installs/anaconda3
    export PATH=$PATH:$ANACONDA_HOME/bin

    执行source /etc/profile刷新,再通过ln -s /opt/installs/anaconda3/bin/python3 /usr/bin/python3创建软链接,确保python3命令可用。

  4. 环境管理命令

    • 进入环境:conda activate 环境名
    • 退出环境:conda deactivate

Spark 测试使用

Spark Python Shell 是交互式学习工具,通过pyspark命令启动,可实时编写代码并查看结果。

案例一:map 算子实现分布式转换

需求:将 1~10 的列表中每个元素平方后输出。

在 Spark Python Shell 中执行:

复制代码
# 创建包含1~10的RDD
rdd = sc.parallelize(range(1, 11))
# 使用map算子计算平方
square_rdd = rdd.map(lambda x: x * x)
# 输出结果
square_rdd.collect()

执行后将得到[1, 4, 9, 16, 25, 36, 49, 64, 81, 100],展示了 Spark 分布式处理元素的能力。

案例二:WordCount 词频统计

/home/data.txt为数据源,统计每个单词出现的次数,步骤如下:

  1. 读取数据

    复制代码
    fileRdd = sc.textFile("/home/data.txt")
    print("总行数:", fileRdd.count())
    print("前3行:", fileRdd.take(3))
  2. 过滤空行

    复制代码
    filterRdd = fileRdd.filter(lambda line: len(line.strip()) > 0)
    print("过滤后行数:", filterRdd.count())
  3. 拆分单词

    复制代码
    wordRdd = filterRdd.flatMap(lambda line: line.strip().split(" "))
    print("单词总数:", wordRdd.count())
  4. 生成键值对

    复制代码
    tupleRdd = wordRdd.map(lambda word: (word, 1))
  5. 聚合统计

    复制代码
    rsRdd = tupleRdd.reduceByKey(lambda tmp, item: tmp + item)
  6. 结果输出与保存

    复制代码
    # 打印结果
    rsRdd.foreach(lambda kv: print(kv))
    # 保存到本地
    rsRdd.saveAsTextFile("/home/wcoutput")

案例三:计算 PI 值

通过 Spark 提交脚本计算圆周率,执行:

复制代码
/opt/installs/spark/bin/spark-submit --master local[2] /opt/installs/spark/examples/src/main/python/pi.py 100

其中--master local[2]指定使用 2 个核心,100是采样次数,结果会接近 3.14。

相关推荐
拓端研究室34 分钟前
专题:2025机器人产业深度洞察报告|附136份报告PDF与数据下载
大数据·人工智能·物联网
阿里云大数据AI技术2 小时前
NL2SQL 再创佳绩!阿里云论文中选 SIGMOD 2025
大数据·人工智能·云计算
chanalbert4 小时前
Nacos 技术研究文档(基于 Nacos 3)
spring boot·分布式·spring cloud
庄小焱4 小时前
【离线数仓项目】——电商域ADS层开发实战
大数据
庄小焱4 小时前
【离线数仓项目】——离线大数据系统设计
大数据
吃手机用谁付的款5 小时前
基于hadoop的竞赛网站日志数据分析与可视化(下)
大数据·hadoop·python·信息可视化·数据分析
老周聊架构6 小时前
大数据领域开山鼻祖组件Hadoop核心架构设计
大数据
TDengine (老段)11 小时前
TDengine 使用最佳实践(2)
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
Deng94520131412 小时前
基于大数据的电力系统故障诊断技术研究
大数据·matplotlib·深度特征提取·随机森林分类算法·标签编码