PySpark单机模式安装教程

目录

[1. 环境准备](#1. 环境准备)

[1.1 安装要求](#1.1 安装要求)

[1.2 检查Python和Java环境](#1.2 检查Python和Java环境)

[2. 下载并解压Spark](#2. 下载并解压Spark)

[2.1 下载Spark](#2.1 下载Spark)

[2.2 解压安装包](#2.2 解压安装包)

[3. 配置环境变量](#3. 配置环境变量)

[4. 配置Spark](#4. 配置Spark)

[5. 启动Spark Shell](#5. 启动Spark Shell)

[6. 运行测试](#6. 运行测试)

[7. 关闭Spark Shell](#7. 关闭Spark Shell)

[8. 常见问题](#8. 常见问题)

[8.1 兼容性问题](#8.1 兼容性问题)

[8.2 环境变量配置](#8.2 环境变量配置)

总结


1. 环境准备

1.1 安装要求

  • 操作系统:Linux(推荐)、Windows或MacOS
  • Python:Python 3.6或以上
  • Java环境:JDK 1.8或以上

1.2 检查Python和Java环境

Spark依赖于Java环境,请先确认是否已安装JDK。可通过以下命令检查:

java -version
python3 --version

若未安装,请根据系统选择安装JDK 8以上的版本。安装完成后,设置JAVA_HOME环境变量。

export JAVA_HOME=/path/to/jdk export PATH=$JAVA_HOME/bin:$PATH

通过Anaconda安装 ,因为这个软件不仅有python还有其他的功能,比单纯安装python功能要强大。

# 上传
cd /opt/modules
# 添加执行权限
chmod u+x Anaconda3-2021.05-Linux-x86_64.sh
# 执行
sh ./Anaconda3-2021.05-Linux-x86_64.sh
# 过程
#第一次:【直接回车,然后按q】
   Please, press ENTER to continue
   >>>
#第二次:【输入yes】
 Do you accept the license terms? [yes|no]
 [no] >>> yes
#第三次:【输入解压路径:/opt/installs/anaconda3】
 [/root/anaconda3] >>> /opt/installs/anaconda3
 #第四次:【输入yes,是否在用户的.bashrc文件中初始化
Anaconda3的相关内容】
 Do you wish the installer to initialize  Anaconda3
   by running conda init? [yes|no]
   [no] >>> yes

更新环境变量:

# 刷新环境变量
source /root/.bashrc
# 激活虚拟环境,如果需要关闭就使用:conda deactivate
conda activate

配置环境变量并再次刷新:

# 编辑环境变量
vi /etc/profile
# 添加以下内容
# Anaconda Home
export ANACONDA_HOME=/opt/installs/anaconda3
export PATH=$PATH:$ANACONDA_HOME/bin

创建软连接:

# 创建软连接
ln -s /opt/installs/anaconda3/bin/python3 /usr/bin/python3
# 验证
echo $ANACONDA_HOME

2. 下载并解压Spark

2.1 下载Spark

前往 Apache Spark官网 下载Spark安装包。选择预编译好的版本(如"Pre-built for Apache Hadoop 3.2 and later"),并下载 .tgz 文件。

2.2 解压安装包

使用以下命令解压下载的Spark安装包:

# 解压
cd /opt/modules
tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C  /opt/installs
# 重命名
cd /opt/installs
mv spark-3.1.2-bin-hadoop3.2 spark-local
# 创建软链接
ln -s spark-local spark

3. 配置环境变量

编辑~/.bashrc/etc/profile文件,加入以下环境变量:

export SPARK_HOME=/opt/installs/spark
export PATH=$SPARK_HOME/bin:$PATH

更新环境变量:

source /etc/profile

4. 配置Spark

单机模式安装相对简单,不需要配置Master和Worker。默认情况下,Spark会自动启用单机模式运行。您可以根据需求修改conf/spark-env.shconf/spark-defaults.conf配置文件。

5. 启动Spark Shell

Spark安装完成后,可以启动Spark Shell来测试环境:

/opt/installs/spark/bin/pyspark --master local[2]

若成功启动,将看到Spark Shell的命令行提示,表示安装成功。

6. 运行测试

在Spark Shell中可以输入以下代码进行简单测试:

map算子实现分布式转换

需求:将一个包含 1~ 10 共10个元素的列表,使用Spark实现分布式处理,将每个元素的平方输出

运行后应输出2, 4, 6, 8, 10,说明Spark单机模式安装成功。

# 定义一个列表
list1 = [1,2,3,4,5,6,7,8,9,10]
# 将列表通过SparkContext将数据转换为一个分布式集合RDD
inputRdd = sc.parallelize(list1)

# 将RDD中每个分区的数据进行处理
rsRdd = inputRdd.map(lambda x : x**2)

# 将结果RDD的每个元素进行输出
rsRdd.foreach(lambda x : print(x))

7. 关闭Spark Shell

在测试完成后,可以通过以下命令退出Spark Shell:

quit

8. 常见问题

8.1 兼容性问题

若出现Python和Java版本兼容性问题,可尝试降低Java或Spark版本,确保它们相互兼容。

8.2 环境变量配置

确认**JAVA_HOME** 和**SPARK_HOME** 等环境变量正确配置,并已通过**source /etc/profile**生效。

总结

至此,您已经成功在单机模式下安装并运行了Spark。这种模式适合小规模数据处理和学习实验。对于更高的性能需求,建议使用集群模式。

相关推荐
sf_www1 小时前
flink 内存配置(四):内存调优和问题处理
大数据·flink
小黑031 小时前
Spark资源调度和任务调度
大数据·分布式·spark
我的K84091 小时前
Flink的环境搭建及使用
大数据·flink·intellij-idea
大数据编程之光1 小时前
【spark面试题】RDD和DataFrame以及DataSet有什么异同
大数据·分布式·spark
Francek Chen1 小时前
【大数据技术基础 | 实验八】HBase实验:新建HBase表
大数据·数据库·hadoop·分布式·zookeeper·hbase
技术小赵2 小时前
外贸独立站的四大引流推广策略
大数据·网络·经验分享
P.H. Infinity2 小时前
【RabbitMQ】01-RabbitMQ
分布式·rabbitmq
码农爱java2 小时前
Kafka 之顺序消息
spring boot·分布式·微服务·kafka·mq·消息中间件·顺序消息
Amagi.3 小时前
什么是RabbitMQ
分布式·rabbitmq
天冬忘忧3 小时前
Spark 的Standalone集群环境安装与测试
大数据·spark