在本地跑通spark环境

官网下载spark

下载spark

解压就好

本地配置环境变量

配置环境变量(系统环境变量)

  1. 新增 SPARK_HOME
    变量名:SPARK_HOME
    变量值:F:\class\spark\Spark_env\spark-3.4.4-bin-hadoop3
    配置 PATH,新增如下:

%SPARK_HOME%\bin

创建虚拟环境

conda create -n spark python=3.10

激活虚拟环境
conda activate spark

然后在spark环境下安装 pyspark

然后运行下面的python代码就跑通了

bash 复制代码
import os
from pyspark.sql import SparkSession

# 设置 PYSPARK_PYTHON 和 PYSPARK_DRIVER_PYTHON 为当前环境的 Python 路径
os.environ['PYSPARK_PYTHON'] = r'E:\download_ware\conda\envs\spark\python.exe'
os.environ['PYSPARK_DRIVER_PYTHON'] = r'E:\download_ware\conda\envs\spark\python.exe'

# 创建 Spark 会话
spark = SparkSession.builder \
    .appName("Simple App") \
    .config("spark.sql.shuffle.partitions", "4") \
    .config("spark.default.parallelism", "4") \
    .getOrCreate()

# 设置日志级别
spark.sparkContext.setLogLevel("DEBUG")

# 打印日志信息,确认 Spark 会话已经成功创建
print("Spark session created successfully!")

# 创建一个简单的 DataFrame
data = [("Alice", 1), ("Bob", 2), ("Cathy", 3)]
columns = ["Name", "Value"]

df = spark.createDataFrame(data, columns)

# 显示 DataFrame 内容
print("Displaying DataFrame:")
df.show()

# 关闭 Spark 会话
spark.stop()

显示如下就是成功了

相关推荐
巴巴_羊19 分钟前
AJAX原理
前端·javascript·ajax
李昊哲小课2 小时前
tensorflow-cpu
大数据·人工智能·python·深度学习·数据分析·tensorflow
MZWeiei10 小时前
Spark任务调度流程详解
大数据·分布式·spark·scala
бесплатно11 小时前
Spark-Core(RDD行动算子)
大数据·分布式·spark
SelectDB技术团队12 小时前
顺丰科技:从 Presto 到 Doris 湖仓构架升级,提速 3 倍,降本 48%
大数据·数据库·数据仓库·信息可视化·数据分析·doris·实时分析
一只专注api接口开发的技术猿13 小时前
1688 API 自动化采集实践:商品详情实时数据接口开发与优化
大数据·运维·数据库·自动化
静听山水16 小时前
Hive表JOIN性能问
大数据
完美世界的一天16 小时前
ES面试题系列「一」
大数据·elasticsearch·搜索引擎·面试·全文检索
Caron_xcb16 小时前
大数据基础——Ubuntu 安装
大数据·linux·ubuntu
好吃的肘子18 小时前
ElasticSearch入门详解
java·大数据·elasticsearch·搜索引擎·云原生