对SparkRDD的认识

Spark RDD 概述

RDD(Resilient Distributed Dataset)是 Spark 的核心数据结构,代表一个不可变、可分区的分布式数据集。RDD 支持并行操作,具备容错性,能够高效处理大规模数据。

RDD 的特性

  • 不可变性(Immutable):RDD 一旦创建无法修改,只能通过转换操作生成新的 RDD。
  • 分区(Partitioned):数据分布在多个节点上,每个分区可独立处理。
  • 容错性(Fault-tolerant):通过血缘关系(Lineage)记录转换过程,丢失时可重新计算恢复。
  • 延迟计算(Lazy Evaluation) :转换操作不会立即执行,需触发行动操作(如 collect())时才计算。

RDD 的创建方式

  1. 从集合创建

    使用 parallelize() 方法将本地集合转换为 RDD。

    python 复制代码
    from pyspark import SparkContext  
    sc = SparkContext("local", "RDD Example")  
    data = [1, 2, 3, 4, 5]  
    rdd = sc.parallelize(data)  
  2. 从外部存储系统加载

    通过 textFile() 从 HDFS、本地文件系统等读取数据。

    python 复制代码
    rdd = sc.textFile("hdfs://path/to/file.txt")  
  3. 从其他 RDD 转换

    通过转换操作(如 map()filter())生成新的 RDD。

    python 复制代码
    squared_rdd = rdd.map(lambda x: x * x)  

RDD 的常用操作

  1. 转换操作(Transformations)

    • map(func):对每个元素应用函数。
    • filter(func):保留满足条件的元素。
    • flatMap(func):先映射后扁平化(如拆分单词)。
    • reduceByKey(func):对键值对按键聚合。
  2. 行动操作(Actions)

    • collect():返回所有元素到驱动程序。
    • count():统计元素数量。
    • take(n):返回前 n 个元素。
    • saveAsTextFile(path):保存到文件系统。

RDD 持久化

通过 persist()cache() 将 RDD 缓存到内存或磁盘,避免重复计算。

python 复制代码
rdd.persist(StorageLevel.MEMORY_ONLY)  # 仅内存  
rdd.cache()  # 默认内存缓存  

RDD 的依赖关系

  • 窄依赖(Narrow Dependency) :每个父 RDD 分区最多被一个子分区依赖(如 map)。
  • 宽依赖(Wide Dependency) :父分区可能被多个子分区依赖(如 reduceByKey),需 Shuffle 操作。

示例:词频统计

python 复制代码
text_rdd = sc.textFile("input.txt")  
words_rdd = text_rdd.flatMap(lambda line: line.split(" "))  
word_counts = words_rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)  
word_counts.saveAsTextFile("output")  

RDD 的局限性

  • 不支持结构化数据的优化(如列式存储),需使用 DataFrame/Dataset。
  • 频繁的 Shuffle 操作可能影响性能。

通过合理设计分区和持久化策略,RDD 能够高效处理大规模分布式数据任务。

相关推荐
小小小小宇几秒前
设计稿转代码:如何将生成代码与内部组件库关联
前端
七牛云行业应用1 分钟前
别每个 AI 工具单独配了!MCP 一次搭建,Claude、Cursor、TRAE 全能用
前端
_xaboy1 分钟前
FormCreate 设计器 v6.3 正式发布:AI 表单助理3.0登场!
前端·vue.js·低代码·开源·表单设计器
胡志辉2 分钟前
邮件中点击“加载图片”,你的IP地址已经被泄漏
前端·后端·安全
码力斜杠哥9 分钟前
Rust初习录(6)Rust的 if 玩法
开发语言·python·rust
聆风吟º14 分钟前
【C标准库】深入理解C语言 isalpha 函数详解:判断字符是否为字母
c语言·开发语言·库函数·isalpha
openKaka_14 分钟前
reconcileChildren 深入:React 如何根据 ReactElement 构建子 Fiber
前端·javascript·react.js
三翼鸟数字化技术团队30 分钟前
事件循环原来这么简单!
前端
gf132111131 分钟前
python_【更新已发送的消息卡片】
java·前端·python
WL_Aurora36 分钟前
Java字符输入全攻略
java·开发语言