一文详解pyspark常用算子与API

rdd.glom()

对rdd的数据进行嵌套,嵌套按照分区来进行

cpp 复制代码
    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 2)
    print(rdd.glom().collect())

输出:[[1,2,3,4],[5,6,7,8,9]]

参考

相关推荐
德彪稳坐倒骑驴1 小时前
Spark入门知识
大数据·分布式·spark
zhangxl-jc2 小时前
SparkStreaming消费Kafka 重启任务时重复消费数据
分布式·spark·kafka
毕不了业的硏䆒僧1 天前
NVIDIA DGX Spark | Ubuntu cuda13.0安装Pytorch GPU版本
pytorch·ubuntu·spark
徐先生 @_@|||1 天前
基于Spark配置+缓存策略+Junpyter Notebook 实现Spark数据加速调试
大数据·分布式·缓存·spark
wasp5201 天前
Hudi Spark 集成分析
数据库·spark·hudi·数据湖
徐先生 @_@|||1 天前
大数据技术栈演进:从MapReduce到云原生计算的全面对比(2026年)
大数据·hadoop·云原生·spark·mapreduce
徐先生 @_@|||1 天前
大数据处理框架(Hadoop VS PySpark)
大数据·hadoop·分布式·spark·k8s·yarn
吃辣我第一1 天前
SuperMap GPA如何限制Spark使用端口范围
服务器·spark·php
yumgpkpm1 天前
银行智能数据平台在Cloudera CDH6\CDP 7\CMP 7平台下的具体使用配置流程
大数据·hive·hadoop·数据挖掘·flink·spark·cloudera
Thomas21432 天前
spark view永久保存 + paimon对应的view
大数据·分布式·spark