一文详解pyspark常用算子与API

rdd.glom()

对rdd的数据进行嵌套,嵌套按照分区来进行

cpp 复制代码
    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 2)
    print(rdd.glom().collect())

输出:[[1,2,3,4],[5,6,7,8,9]]

参考

相关推荐
绿算技术8 小时前
OpenClaw × GP Spark:本地智能与极速存储的终极融合
大数据·分布式·spark
Hello.Reader15 小时前
Spark Connect 快速入门远程连接 Spark 集群实战
javascript·ajax·spark
Hello.Reader18 小时前
Pandas API on Spark 快速入门像写 Pandas 一样使用 Spark
大数据·spark·pandas
talen_hx2962 天前
《零基础入门Spark》学习笔记 Day 06
笔记·学习·spark
D愿你归来仍是少年2 天前
Apache Spark 第 8 章:Structured Streaming 流处理
大数据·spark·apache
hf2000123 天前
零成本迁移,原地加速,成本降低60%:火花思维基于云器Lakehouse升级实践
大数据·分布式·spark·lakehouse
talen_hx2963 天前
《零基础入门Spark》学习笔记 Day 04
大数据·笔记·学习·spark
D愿你归来仍是少年3 天前
Apache Spark 详细讲解第 7 章:Shuffle 机制深度解析
大数据·spark·apache
Code知行合壹4 天前
Spark使用总结
大数据·分布式·spark
zhojiew4 天前
[INFRA] EMR集群中Hive和Spark集成Glue Data Catalog过程的深入分析
hive·hadoop·spark·aws·bigdata