pysaprk 筛选一列中包含某个字符串的行

在 PySpark 中,你可以使用 filter 函数来筛选出一列中包含某个字符串的行。以下是一个示例代码:

python 复制代码
from pyspark.sql import SparkSession  
  
# 创建 SparkSession  
spark = SparkSession.builder.appName("筛选包含特定字符串的行").getOrCreate()  
  
# 加载数据  
data = [("Alice", "喜欢水果"), ("Bob", "喜欢篮球"), ("Charlie", "喜欢足球水果"), ("David", "喜欢篮球乒乓球")]  
df = spark.createDataFrame(data, ["name", "interests"])  
  
# 筛选出 interests 列中包含 "篮球" 的行  
filtered_df = df.filter(df["interests"].contains("篮球"))  
  
# 显示筛选结果  
filtered_df.show()

运行结果:

python 复制代码
+-------+---------+  
|   name|interests|  
+-------+---------+  
|    Bob|喜欢篮球|  
| David|喜欢篮球乒乓球|  
+-------+---------+
相关推荐
艾莉丝努力练剑13 小时前
【Python基础:语法第一课】Python 基础语法详解:变量、类型、动态特性与运算符实战,构建完整的编程基础认知体系
大数据·人工智能·爬虫·python·pycharm·编辑器
智能相对论13 小时前
10万人共同选择的背后,Rokid乐奇有自己的“破圈秘籍”
大数据·智能眼镜
人大博士的交易之路13 小时前
龙虎榜——20251128
大数据·数学建模·数据挖掘·数据分析·缠论·龙虎榜·道琼斯结构
YJlio13 小时前
ShareEnum 学习笔记(9.5):内网共享体检——开放共享、匿名访问与权限风险
大数据·笔记·学习
wang_yb14 小时前
告别盲人摸象,数据分析的抽样方法总结
大数据·databook
dalalajjl14 小时前
每个Python开发者都应该试试知道创宇AiPy!工作效率提升500%的秘密武器
大数据·人工智能
2501_941623321 天前
人工智能赋能智慧农业互联网应用:智能种植、农业数据分析与产量优化实践探索》
大数据·人工智能
YangYang9YangYan1 天前
网络安全专业职业能力认证发展路径指南
大数据·人工智能·安全·web安全
小五传输1 天前
常用的文件摆渡系统:让数据安全高效跨越网络界限
大数据·运维·安全
数据科学小丫1 天前
数据分析与FineBI介绍
大数据·数据分析·finebi