Pyspark中pyspark.sql.functions常用方法(4)

文章目录

  • [pyspark sql functions](#pyspark sql functions)
    • [forall 判断array是否满足all](#forall 判断array是否满足all)
    • [filter 过滤](#filter 过滤)
    • [zip_with 数组合并](#zip_with 数组合并)

pyspark sql functions

forall 判断array是否满足all

复制代码
df = spark.createDataFrame(
    [(1, ["bar"]), (2, ["foo", "bar"]), (3, ["foobar", "foo"])],
    ("key", "values")
)
df.show()
+---+-------------+
|key|       values|
+---+-------------+
|  1|        [bar]|
|  2|   [foo, bar]|
|  3|[foobar, foo]|
+---+-------------+
df.select(forall("values", lambda x: x.rlike("foo")).alias("all_foo")).show()
+-------+
|all_foo|
+-------+
|  false|
|  false|
|   true|
+-------+

filter 过滤

复制代码
df = spark.createDataFrame([([1, None, 2, 3],), ([4, 5, None, 4],)], ['data'])
df.show()
+---------------+
|           data|
+---------------+
|[1, null, 2, 3]|
|[4, 5, null, 4]|
+---------------+
df.select(fs.filter(df.data,lambda x: x>1).alias('filter')).show()
+---------+
|   filter|
+---------+
|   [2, 3]|
|[4, 5, 4]|
+---------+

zip_with 数组合并

使用函数将两个给定的数组按元素合并为一个数组。如果一个数组较短,则在应用函数之前,在末尾附加null以匹配较长数组的长度。

复制代码
df.select(fs.zip_with("xs", "ys", lambda x, y: x ** y).alias("powers")).show(truncate=False)
+---------------------------+
|powers                     |
+---------------------------+
|[1.0, 9.0, 625.0, 262144.0]|
+---------------------------+
相关推荐
是阿超3 小时前
Android中Window和LayoutParams的常用属性及常用方法介绍
1024程序员节
asfdsfgas3 小时前
LLaMA-Factory 入门(一):Mac 环境搭建大模型微调部署的基础全步骤
1024程序员节
无尽夏_5 小时前
CSS3(前端基础)
前端·css·1024程序员节
悟空getmoney6 小时前
自己基于golang写的MongoRest单文件的 RESTful API 网关,直接通过mongodb发布rest,crub聚合简单的很-于大爷工具集
1024程序员节
算法打盹中6 小时前
深入解析 Transformer 模型:以 ChatGPT 为例从词嵌入到输出预测的大语言模型核心工作机制
人工智能·深度学习·语言模型·chatgpt·transformer·1024程序员节
大数据张老师7 小时前
数据结构——直接插入排序
数据结构·算法·排序算法·1024程序员节
恒锐丰小吕7 小时前
EG1151 四开关升降压电源管理芯片技术解析
嵌入式硬件·硬件工程·1024程序员节
lsnm7 小时前
C++新手项目-JsonRPC框架
开发语言·c++·1024程序员节
Yeniden8 小时前
设计模式>原型模式大白话讲解:就像复印机,拿个原件一复印,就得到一模一样的新东西
java·设计模式·原型模式·1024程序员节
南方的狮子先生8 小时前
【数据结构】从线性表到排序算法详解
开发语言·数据结构·c++·算法·排序算法·1024程序员节