一文详解pyspark常用算子与API

rdd.glom()

对rdd的数据进行嵌套,嵌套按照分区来进行

cpp 复制代码
    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 2)
    print(rdd.glom().collect())

输出:[[1,2,3,4],[5,6,7,8,9]]

参考

相关推荐
想你依然心痛20 小时前
Spark大数据分析与实战笔记(第六章 Kafka分布式发布订阅消息系统-02)
笔记·分布式·spark
云器科技2 天前
NinjaVan x 云器Lakehouse: 从传统自建Spark架构升级到新一代湖仓架构
大数据·ai·架构·spark·湖仓平台
是阿威啊2 天前
【用户行为归因分析项目】- 【企业级项目开发第一站】项目架构和需求设计
大数据·hive·hadoop·架构·spark·scala
qq_12498707532 天前
基于spark的西南天气数据的分析与应用(源码+论文+部署+安装)
大数据·分布式·爬虫·python·spark·毕业设计·数据可视化
心止水j2 天前
spark rdd
大数据·分布式·spark
小白学大数据3 天前
海量小说数据采集:Spark 爬虫系统设计
大数据·开发语言·爬虫·spark
嘉禾望岗5033 天前
Spark-Submit参数介绍及任务资源使用测试
大数据·分布式·spark
ha_lydms3 天前
5、Spark函数_s/t
java·大数据·python·spark·数据处理·maxcompute·spark 函数
嘉禾望岗5034 天前
spark算子类型
大数据·分布式·spark
是阿威啊5 天前
【maap-analysis】spark离线数仓项目完整的开发流程
大数据·分布式·spark·scala