pysaprk 筛选一列中包含某个字符串的行

在 PySpark 中,你可以使用 filter 函数来筛选出一列中包含某个字符串的行。以下是一个示例代码:

python 复制代码
from pyspark.sql import SparkSession  
  
# 创建 SparkSession  
spark = SparkSession.builder.appName("筛选包含特定字符串的行").getOrCreate()  
  
# 加载数据  
data = [("Alice", "喜欢水果"), ("Bob", "喜欢篮球"), ("Charlie", "喜欢足球水果"), ("David", "喜欢篮球乒乓球")]  
df = spark.createDataFrame(data, ["name", "interests"])  
  
# 筛选出 interests 列中包含 "篮球" 的行  
filtered_df = df.filter(df["interests"].contains("篮球"))  
  
# 显示筛选结果  
filtered_df.show()

运行结果:

python 复制代码
+-------+---------+  
|   name|interests|  
+-------+---------+  
|    Bob|喜欢篮球|  
| David|喜欢篮球乒乓球|  
+-------+---------+
相关推荐
简佐义的博客6 小时前
转录组数据分析实战,仅需99元(视频版)
大数据·人工智能·数据挖掘·数据分析·音视频
APO Research6 小时前
工业连接件的隐形升级:杆端轴承正在从“标准件”走向“结构安全件”
大数据·安全·#工业零部件·#机械设计·#工业自动化·#杆端轴承·#机械结构件
YangYang9YangYan6 小时前
2026高职财税大数据应用学数据分析的技术价值与应用前景
大数据·数据挖掘·数据分析
l1t7 小时前
在ARM64 KyLin计算机上安装llama.cpp
大数据·llama·kylin
福客AI智能客服7 小时前
电商店铺效率升级:智能客服系统如何重构服务与转化逻辑
大数据·重构
偷吃的耗子7 小时前
大数据报表系统技术方案与业务方案设计
大数据·架构
2601_949539458 小时前
家用插混SUV实测研究:聚焦电池安全与质保,为家庭选型提供参考
大数据
康康的AI博客8 小时前
优化工程系统稳定性:DMXAPI在可靠性工程中的应用
大数据
故事和你918 小时前
sdut-程序设计基础Ⅰ-实验二选择结构(1-8)
大数据·开发语言·数据结构·c++·算法·优化·编译原理
GlobalInfo10 小时前
汽车侧摄像头市场份额调研及投资战略研究报告2026
大数据·人工智能·汽车