在本地跑通spark环境

官网下载spark

下载spark

解压就好

本地配置环境变量

配置环境变量(系统环境变量)

  1. 新增 SPARK_HOME
    变量名:SPARK_HOME
    变量值:F:\class\spark\Spark_env\spark-3.4.4-bin-hadoop3
    配置 PATH,新增如下:

%SPARK_HOME%\bin

创建虚拟环境

conda create -n spark python=3.10

激活虚拟环境
conda activate spark

然后在spark环境下安装 pyspark

然后运行下面的python代码就跑通了

bash 复制代码
import os
from pyspark.sql import SparkSession

# 设置 PYSPARK_PYTHON 和 PYSPARK_DRIVER_PYTHON 为当前环境的 Python 路径
os.environ['PYSPARK_PYTHON'] = r'E:\download_ware\conda\envs\spark\python.exe'
os.environ['PYSPARK_DRIVER_PYTHON'] = r'E:\download_ware\conda\envs\spark\python.exe'

# 创建 Spark 会话
spark = SparkSession.builder \
    .appName("Simple App") \
    .config("spark.sql.shuffle.partitions", "4") \
    .config("spark.default.parallelism", "4") \
    .getOrCreate()

# 设置日志级别
spark.sparkContext.setLogLevel("DEBUG")

# 打印日志信息,确认 Spark 会话已经成功创建
print("Spark session created successfully!")

# 创建一个简单的 DataFrame
data = [("Alice", 1), ("Bob", 2), ("Cathy", 3)]
columns = ["Name", "Value"]

df = spark.createDataFrame(data, columns)

# 显示 DataFrame 内容
print("Displaying DataFrame:")
df.show()

# 关闭 Spark 会话
spark.stop()

显示如下就是成功了

相关推荐
大大大大晴天2 天前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
SelectDB2 天前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生
WhoAmI2 天前
MapReduce框架原理解析一:InputFormat
大数据·hadoop
WhoAmI2 天前
MapReduce框架原理解析三:OutputFormat
大数据·hadoop
WhoAmI2 天前
MapReduce框架原理解析二:Shuffle
大数据·hadoop
大大大大晴天3 天前
Hudi技术内幕:Key Generation原理与实践
大数据
得物技术6 天前
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流
大数据·llm·ai编程
久美子6 天前
AI驱动数仓建设的Harness工程实践——本体建模、知识分层与上下文工程
大数据
大树887 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
大志哥1237 天前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)
大数据·elasticsearch