一文详解pyspark常用算子与API

rdd.glom()

对rdd的数据进行嵌套,嵌套按照分区来进行

cpp 复制代码
    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 2)
    print(rdd.glom().collect())

输出:[[1,2,3,4],[5,6,7,8,9]]

参考

相关推荐
D愿你归来仍是少年1 天前
Apache Spark 第六章:执行计划与 DAG 调度
大数据·spark
Hello.Reader1 天前
PySpark DataFrame 快速入门创建、查询、分组、读写、SQL 实战一篇讲透
数据库·sql·spark
D愿你归来仍是少年1 天前
Apache Spark 第五章:Spark SQL 与 DataFrame
大数据·spark
D愿你归来仍是少年3 天前
Apache Spark 第 3 章:核心概念 RDD / DataFrame
大数据·spark·apache
Hello.Reader3 天前
PySpark 安装保姆级教程pip、Conda、手动安装、Spark Connect 一次讲透(一)
python·spark·conda·pip
Light603 天前
SPARK Agent Protocol(SAP):AI Agent时代的前端开发革命指南
大数据·人工智能·spark
D愿你归来仍是少年3 天前
Apache Spark 第 4 章:Spark 整体架构
spark·apache
datablau国产数据库建模工具3 天前
【无标题】
大数据·数据挖掘·spark
yumgpkpm3 天前
Apache Spark 和 Flink,处理实时大数据流对比(Cloudera CDH、CDP)
flink·spark·apache
D愿你归来仍是少年4 天前
Apache Spark 从入门到精通:完整学习指南
大数据·spark