一文详解pyspark常用算子与API

rdd.glom()

对rdd的数据进行嵌套,嵌套按照分区来进行

cpp 复制代码
    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 2)
    print(rdd.glom().collect())

输出:[[1,2,3,4],[5,6,7,8,9]]

参考

相关推荐
yumgpkpm1 天前
基于GPU的Spark应用加速 Cloudera CDP/华为CMP鲲鹏版+Nvidia英伟达联合解决方案
大数据·数据库·人工智能·hadoop·elasticsearch·spark·cloudera
鸿乃江边鸟1 天前
Spark Datafusion Comet 向量化--ApplyColumnarRulesAndInsertTransitions规则
大数据·spark·native
飞Link1 天前
【大数据】SparkSQL常用操作
大数据·数据挖掘·spark
浊酒南街2 天前
SUBSTRING_INDEX 函数介绍
sql·spark
鸿乃江边鸟2 天前
Spark datafusion comet向量化插件CometPlugin
大数据·spark·native
oMcLin2 天前
如何在 Debian 11 上通过构建大数据湖,使用 Apache Spark 加速电商平台的数据分析与实时推荐引擎
spark·debian·apache
Lansonli2 天前
大数据Spark(七十六):Action行动算子reduce和take、takeSample使用案例
大数据·分布式·spark
鸿乃江边鸟2 天前
Apache Arrow的零拷贝是指什么
spark·零拷贝·native·arrow
Light603 天前
智链护航,数档永存:基于领码SPARK平台构建下一代AI+区块链档案系统解决方案
人工智能·spark·区块链
鸿乃江边鸟3 天前
Spark native向量化组件 datafusion comet
大数据·spark·native·向量化