在本地跑通spark环境

官网下载spark

下载spark

解压就好

本地配置环境变量

配置环境变量(系统环境变量)

  1. 新增 SPARK_HOME
    变量名:SPARK_HOME
    变量值:F:\class\spark\Spark_env\spark-3.4.4-bin-hadoop3
    配置 PATH,新增如下:

%SPARK_HOME%\bin

创建虚拟环境

conda create -n spark python=3.10

激活虚拟环境
conda activate spark

然后在spark环境下安装 pyspark

然后运行下面的python代码就跑通了

bash 复制代码
import os
from pyspark.sql import SparkSession

# 设置 PYSPARK_PYTHON 和 PYSPARK_DRIVER_PYTHON 为当前环境的 Python 路径
os.environ['PYSPARK_PYTHON'] = r'E:\download_ware\conda\envs\spark\python.exe'
os.environ['PYSPARK_DRIVER_PYTHON'] = r'E:\download_ware\conda\envs\spark\python.exe'

# 创建 Spark 会话
spark = SparkSession.builder \
    .appName("Simple App") \
    .config("spark.sql.shuffle.partitions", "4") \
    .config("spark.default.parallelism", "4") \
    .getOrCreate()

# 设置日志级别
spark.sparkContext.setLogLevel("DEBUG")

# 打印日志信息,确认 Spark 会话已经成功创建
print("Spark session created successfully!")

# 创建一个简单的 DataFrame
data = [("Alice", 1), ("Bob", 2), ("Cathy", 3)]
columns = ["Name", "Value"]

df = spark.createDataFrame(data, columns)

# 显示 DataFrame 内容
print("Displaying DataFrame:")
df.show()

# 关闭 Spark 会话
spark.stop()

显示如下就是成功了

相关推荐
z263730561122 分钟前
Git 面试问题,解决冲突
大数据·git·elasticsearch
lusklusklusk2 小时前
ES_用户管理之ElasticSearch 8.0创建用户,用户组,授权,查询权限和LDAP认证
大数据·elasticsearch·jenkins
Elastic开源社区2 小时前
Search after解决ES深度分页问题
大数据·elasticsearch·es·search after·深度分页
交响梦3 小时前
医院信息系统平台总体架构原则
大数据·数据库·人工智能·架构·健康医疗
闯闯桑3 小时前
Spark 中的Shuffle过程
大数据·开发语言·spark·php·scala
cyhysr3 小时前
大数据-spark3.5安装部署之免密登录
大数据
小白的白是白痴的白4 小时前
3.17 配置hadoop集群-理论准备
大数据·hadoop·分布式
StarRocks_labs4 小时前
StarRocks + Paimon 在阿里集团 Lakehouse 的探索与实践
大数据·starrocks·阿里云·架构·湖仓一体
Elastic 中国社区官方博客5 小时前
Elasticsearch:为推理端点配置分块设置
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索