在本地跑通spark环境

官网下载spark

下载spark

解压就好

本地配置环境变量

配置环境变量(系统环境变量)

  1. 新增 SPARK_HOME
    变量名:SPARK_HOME
    变量值:F:\class\spark\Spark_env\spark-3.4.4-bin-hadoop3
    配置 PATH,新增如下:

%SPARK_HOME%\bin

创建虚拟环境

conda create -n spark python=3.10

激活虚拟环境
conda activate spark

然后在spark环境下安装 pyspark

然后运行下面的python代码就跑通了

bash 复制代码
import os
from pyspark.sql import SparkSession

# 设置 PYSPARK_PYTHON 和 PYSPARK_DRIVER_PYTHON 为当前环境的 Python 路径
os.environ['PYSPARK_PYTHON'] = r'E:\download_ware\conda\envs\spark\python.exe'
os.environ['PYSPARK_DRIVER_PYTHON'] = r'E:\download_ware\conda\envs\spark\python.exe'

# 创建 Spark 会话
spark = SparkSession.builder \
    .appName("Simple App") \
    .config("spark.sql.shuffle.partitions", "4") \
    .config("spark.default.parallelism", "4") \
    .getOrCreate()

# 设置日志级别
spark.sparkContext.setLogLevel("DEBUG")

# 打印日志信息,确认 Spark 会话已经成功创建
print("Spark session created successfully!")

# 创建一个简单的 DataFrame
data = [("Alice", 1), ("Bob", 2), ("Cathy", 3)]
columns = ["Name", "Value"]

df = spark.createDataFrame(data, columns)

# 显示 DataFrame 内容
print("Displaying DataFrame:")
df.show()

# 关闭 Spark 会话
spark.stop()

显示如下就是成功了

相关推荐
Unbelievabletobe3 小时前
解决了股票api接口盘后数据更新慢的问题
大数据·开发语言·python
Promise微笑5 小时前
2026年中国驱鸟器市场格局与主流品牌技术
大数据·人工智能
幽络源小助理6 小时前
最新知识付费系统网站源码 PC+H5双端 附安装教程 – 幽络源源码网
大数据·数据库
luweis7 小时前
企智孪生 ETA(3.3 认知算法层:ETA 的思维内核 3.4 基础架构:算力与弹性)【浙江联保网络 卢伟舜】
大数据·运维·线性代数·ai·矩阵·学习方法
暴躁小师兄数据学院8 小时前
【AI大数据工程师特训笔记】第14讲:Linux操作系统与shell脚本
大数据·人工智能·笔记
2601_959986249 小时前
M4Markets:把工具可用性做到位——逻辑梳理与提示整理
大数据·人工智能
薛定猫AI10 小时前
Codex 与 Claude Code 安装配置完全指南
大数据·人工智能·架构
SelectDB10 小时前
从 Machine-Readable 到 Agent-Ready:面向智能体的数据库接口演进
大数据·数据库·agent
前沿AI10 小时前
AI营销服一体化方案亮相2026中国汽车经销商大会,助力汽车销售全链路提效
大数据·人工智能·汽车