spark local模式

Spark Local 模式是一种在单台机器上运行 Spark 应用程序的模式,无需搭建分布式集群,适合开发调试、学习以及运行小规模数据处理任务。以下为你详细介绍该模式:

特点

  • 简易性:无需额外配置分布式集群,在单机上就能快速启动和运行 Spark 应用,便于开发者快速验证代码逻辑。
  • 资源受限:由于在单机上运行,其资源(如 CPU、内存)依赖于单机配置,不适合处理大规模数据。
  • 开发调试便利:在开发过程中,可方便地进行代码调试和问题排查。

运行方式

Python 示例

以下是使用 Python 和 PySpark 在 Local 模式下运行 WordCount 程序的示例:

复制代码
from pyspark.sql import SparkSession

# 创建 SparkSession
spark = SparkSession.builder \
    .appName("LocalWordCount") \
    .master("local[*]") \
    .getOrCreate()

# 读取文本文件
lines = spark.read.text("file:///path/to/your/textfile.txt").rdd.map(lambda r: r[0])

# 进行单词计数
counts = lines.flatMap(lambda x: x.split(' ')) \
              .map(lambda x: (x, 1)) \
              .reduceByKey(lambda a, b: a + b)

# 输出结果
output = counts.collect()
for (word, count) in output:
    print("%s: %i" % (word, count))

# 停止 SparkSession
spark.stop()

在上述代码中:

  • master("local[*]") 表示使用本地模式运行,[*] 代表使用所有可用的 CPU 核心。
  • file:///path/to/your/textfile.txt 是本地文件的路径。
Scala 示例

以下是使用 Scala 在 Local 模式下运行 WordCount 程序的示例:

scala

提交作业

复制代码
import org.apache.spark.sql.SparkSession

object LocalWordCount {
  def main(args: Array[String]): Unit = {
    // 创建 SparkSession
    val spark = SparkSession.builder()
      .appName("LocalWordCount")
      .master("local[*]")
      .getOrCreate()

    // 读取文本文件
    val lines = spark.read.textFile("file:///path/to/your/textfile.txt").rdd

    // 进行单词计数
    val counts = lines.flatMap(_.split(" "))
      .map(word => (word, 1))
      .reduceByKey(_ + _)

    // 输出结果
    counts.collect().foreach(println)

    // 停止 SparkSession
    spark.stop()
  }
}    
Python 代码

在终端中使用 spark-submit 提交 Python 代码:

bash

复制代码
spark-submit --master local[*] /path/to/your/wordcount.py
Scala 代码

若使用 Scala 代码,需先将代码打包成 JAR 文件,再使用 spark-submit 提交:

bash

复制代码
spark-submit --master local[*] --class com.example.LocalWordCount
相关推荐
Elastic 中国社区官方博客11 分钟前
Elastic 线下 Meetup 将于 2026 年 7 月 26 号下午在深圳举行
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
weixin_4684668530 分钟前
千问大模型在阿里生态中的实战应用指南
大数据·人工智能·深度学习·ai·大模型·智能交互·自动应答
三十..38 分钟前
Ceph分布式存储核心技术精要与运维实践指南
运维·分布式·ceph
诗词在线42 分钟前
谷歌算法优化与专业内容构建策略
大数据
Elastic 中国社区官方博客1 小时前
Elasticsearch 如何通过 synthetic _id 和 Bloom filters 将时序存储降低 34%
大数据·数据库·elasticsearch·搜索引擎·serverless·全文检索·时序数据库
LONGZETECH1 小时前
架构师实战拆解|无人机智慧实训SaaS中台:断电续考、AI组卷、多端同步核心设计
大数据·人工智能·架构·系统架构·无人机
jkyy20141 小时前
大模型重构饮食健康服务链路:多维技术赋能膳食管理智能化升级
大数据·人工智能·信息可视化·重构·健康医疗
一只鹿鹿鹿2 小时前
信息化项目管理规范(参考Word文件)
java·大数据·运维·开发语言·数据库
TAOCARTS0012 小时前
反向海淘旺季运营技巧,借助独立站快速拉升店铺单量
大数据·人工智能
数据仓库_晨曦2 小时前
【无标题】
大数据·sql·spark