一文详解pyspark常用算子与API

rdd.glom()

对rdd的数据进行嵌套,嵌套按照分区来进行

cpp 复制代码
    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 2)
    print(rdd.glom().collect())

输出:[[1,2,3,4],[5,6,7,8,9]]

参考

相关推荐
华子w90892585910 小时前
基于 Python Django 和 Spark 的电力能耗数据分析系统设计与实现7000字论文实现
python·spark·django
小新学习屋14 小时前
Spark从入门到熟悉(篇三)
大数据·分布式·spark
Aurora_NeAr1 天前
Spark SQL架构及高级用法
大数据·后端·spark
百度Geek说3 天前
搜索数据建设系列之数据架构重构
数据仓库·重构·架构·spark·dubbo
大数据CLUB3 天前
基于spark的航班价格分析预测及可视化
大数据·hadoop·分布式·数据分析·spark·数据可视化
小新学习屋3 天前
Spark从入门到熟悉(篇一)
大数据·分布式·spark
Cachel wood12 天前
Spark教程6:Spark 底层执行原理详解
大数据·数据库·分布式·计算机网络·spark
大数据CLUB13 天前
基于pyspark的北京历史天气数据分析及可视化_离线
大数据·hadoop·数据挖掘·数据分析·spark
Cachel wood13 天前
Spark教程1:Spark基础介绍
大数据·数据库·数据仓库·分布式·计算机网络·spark