pysaprk 筛选一列中包含某个字符串的行

在 PySpark 中,你可以使用 filter 函数来筛选出一列中包含某个字符串的行。以下是一个示例代码:

python 复制代码
from pyspark.sql import SparkSession  
  
# 创建 SparkSession  
spark = SparkSession.builder.appName("筛选包含特定字符串的行").getOrCreate()  
  
# 加载数据  
data = [("Alice", "喜欢水果"), ("Bob", "喜欢篮球"), ("Charlie", "喜欢足球水果"), ("David", "喜欢篮球乒乓球")]  
df = spark.createDataFrame(data, ["name", "interests"])  
  
# 筛选出 interests 列中包含 "篮球" 的行  
filtered_df = df.filter(df["interests"].contains("篮球"))  
  
# 显示筛选结果  
filtered_df.show()

运行结果:

python 复制代码
+-------+---------+  
|   name|interests|  
+-------+---------+  
|    Bob|喜欢篮球|  
| David|喜欢篮球乒乓球|  
+-------+---------+
相关推荐
35岁程序员的自救之路15 小时前
2026年社区系统选型指南:拒绝“缝合怪”,拥抱“AI原生”一体化方案
大数据·人工智能·ai-native
千里念行客24016 小时前
康华生物拐点已至:狂苗龙头加速转型 开启预防+治疗双轮增长新征程
大数据·科技·安全·健康医疗
哲霖软件16 小时前
机械质量管控总踩坑?用对 ERP从根源解决问题
大数据·智能制造·机械erp·哲霖软件·非标自动化
zhangshuang-peta16 小时前
MCP 与治理:当 Agent 成为组织决策的一部分
大数据·人工智能·ai agent·mcp·peta
桌面运维家16 小时前
IDV云桌面vDisk机房建设方案如何查看分组使用统计
大数据·人工智能
isNotNullX17 小时前
数据架构是什么?数据架构和其他架构的区别是什么?
大数据·微服务·架构
SiYuanFeng17 小时前
新手学Git:以一个小游戏项目为例,完成初始化、提交、查看历史与恢复版本
大数据·git·elasticsearch
DianSan_ERP17 小时前
淘宝订单接口集成中如何正确处理消费者敏感信息的安全与合规问题?
大数据·运维·网络·人工智能·安全·servlet
iiiiyu17 小时前
常用API(StringJoiner类 & Math类 & System类)
java·大数据·开发语言·数据结构·编程语言
常宇杏起18 小时前
AI安全进阶:AI系统日志审计与安全监控技巧
大数据·人工智能·安全