在本地跑通spark环境

官网下载spark

下载spark

解压就好

本地配置环境变量

配置环境变量(系统环境变量)

  1. 新增 SPARK_HOME
    变量名:SPARK_HOME
    变量值:F:\class\spark\Spark_env\spark-3.4.4-bin-hadoop3
    配置 PATH,新增如下:

%SPARK_HOME%\bin

创建虚拟环境

conda create -n spark python=3.10

激活虚拟环境
conda activate spark

然后在spark环境下安装 pyspark

然后运行下面的python代码就跑通了

bash 复制代码
import os
from pyspark.sql import SparkSession

# 设置 PYSPARK_PYTHON 和 PYSPARK_DRIVER_PYTHON 为当前环境的 Python 路径
os.environ['PYSPARK_PYTHON'] = r'E:\download_ware\conda\envs\spark\python.exe'
os.environ['PYSPARK_DRIVER_PYTHON'] = r'E:\download_ware\conda\envs\spark\python.exe'

# 创建 Spark 会话
spark = SparkSession.builder \
    .appName("Simple App") \
    .config("spark.sql.shuffle.partitions", "4") \
    .config("spark.default.parallelism", "4") \
    .getOrCreate()

# 设置日志级别
spark.sparkContext.setLogLevel("DEBUG")

# 打印日志信息,确认 Spark 会话已经成功创建
print("Spark session created successfully!")

# 创建一个简单的 DataFrame
data = [("Alice", 1), ("Bob", 2), ("Cathy", 3)]
columns = ["Name", "Value"]

df = spark.createDataFrame(data, columns)

# 显示 DataFrame 内容
print("Displaying DataFrame:")
df.show()

# 关闭 Spark 会话
spark.stop()

显示如下就是成功了

相关推荐
递归尽头是星辰2 小时前
Spark核心技术解析:从RDD到Dataset的演进与实践
大数据·rdd·dataset·spark核心·spark编程模型
风跟我说过她3 小时前
Hadoop HA (高可用) 配置与操作指南
大数据·hadoop·分布式·zookeeper·centos
沧澜sincerely3 小时前
WSL2搭建Hadoop伪分布式环境
大数据·hadoop·搜索引擎
计算机编程小央姐10 小时前
【Spark+Hive+hadoop】基于spark+hadoop基于大数据的人口普查收入数据分析与可视化系统
大数据·hadoop·数据挖掘·数据分析·spark·课程设计
鲲志说11 小时前
数据洪流时代,如何挑选一款面向未来的时序数据库?IoTDB 的答案
大数据·数据库·apache·时序数据库·iotdb
没有bug.的程序员11 小时前
MVCC(多版本并发控制):InnoDB 高并发的核心技术
java·大数据·数据库·mysql·mvcc
nju_spy13 小时前
南京大学 - 复杂结构数据挖掘(一)
大数据·人工智能·机器学习·数据挖掘·数据清洗·南京大学·相似性分析
哈哈很哈哈14 小时前
Flink SlotSharingGroup 机制详解
java·大数据·flink
豆豆豆大王14 小时前
头歌Kingbase ES内连接、外连接查询
大数据·数据库·elasticsearch
在未来等你15 小时前
Elasticsearch面试精讲 Day 20:集群监控与性能评估
大数据·分布式·elasticsearch·搜索引擎·面试