一文详解pyspark常用算子与API

rdd.glom()

对rdd的数据进行嵌套,嵌套按照分区来进行

cpp 复制代码
    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 2)
    print(rdd.glom().collect())

输出:[[1,2,3,4],[5,6,7,8,9]]

参考

相关推荐
十月南城1 天前
实时数据平台的价值链——数据采集、加工、存储、查询与消费的协同效应与ROI评估
数据库·数据仓库·hive·hadoop·spark
伟大的大威2 天前
NVIDIA DGX Spark (Blackwell GB10) 双机 196B Step 3.5 Flash 大模型部署完整实录
分布式·spark·nvidia
petrel20152 天前
【Spark】深度魔改 Spark 源码:打破静态限制,实现真正的运行时动态扩缩容
大数据·分布式·spark
zml.~3 天前
Spark 大数据分析:从原理到实战的一站式指南
大数据·数据分析·spark
zml.~3 天前
Spark大数据分析:解锁海量数据价值的核心利器
大数据·数据分析·spark
petrel20153 天前
【Spark】性能与联通性的终极博弈:Spark on K8s 主机网络改造深度实战
大数据·网络·spark·kubernetes·claude code
Moshow郑锴3 天前
Spark与Prophecy综合比较&&推荐Prophecy的理由
大数据·分布式·spark
high20113 天前
【Auron】-- 让 Spark SQL/DataFrame 跑得更快
大数据·sql·spark
走遍西兰花.jpg4 天前
spark的shuffle原理及调优
大数据·分布式·spark
小邓睡不饱耶4 天前
Spark 3.5.1 全栈实战指南:从环境部署到生产优化
大数据·分布式·spark