一文详解pyspark常用算子与API

rdd.glom()

对rdd的数据进行嵌套,嵌套按照分区来进行

cpp 复制代码
    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 2)
    print(rdd.glom().collect())

输出:[[1,2,3,4],[5,6,7,8,9]]

参考

相关推荐
筑梦之人5 小时前
Spark-3.5.7文档3 - Spark SQL、DataFrame 和 Dataset 指南
spark
筑梦之人7 小时前
Spark-3.5.7文档4 - Structured Streaming 编程指南
spark
Q26433650237 小时前
【有源码】基于Hadoop+Spark的起点小说网大数据可视化分析系统-基于Python大数据生态的网络文学数据挖掘与可视化系统
大数据·hadoop·python·信息可视化·数据分析·spark·毕业设计
筑梦之人9 小时前
Spark-3.5.7文档2 - RDD 编程指南
大数据·分布式·spark
潘达斯奈基~12 小时前
spark性能优化2:Window操作和groupBy操作的区别
大数据·性能优化·spark
yumgpkpm16 小时前
CMP(类Cloudera CDP 7.3 404版华为泰山Kunpeng)和Apache Doris的对比
大数据·hive·hadoop·spark·apache·hbase·cloudera
乌恩大侠1 天前
DGX Spark 恢复系统
大数据·分布式·spark
梦里不知身是客112 天前
spark读取table中的数据【hive】
大数据·hive·spark
赞奇科技Xsuperzone2 天前
DGX Spark 实战解析:模型选择与效率优化全指南
大数据·人工智能·gpt·spark·nvidia
更深兼春远2 天前
Spark on Yarn安装部署
大数据·分布式·spark