pysaprk 筛选一列中包含某个字符串的行

在 PySpark 中,你可以使用 filter 函数来筛选出一列中包含某个字符串的行。以下是一个示例代码:

python 复制代码
from pyspark.sql import SparkSession  
  
# 创建 SparkSession  
spark = SparkSession.builder.appName("筛选包含特定字符串的行").getOrCreate()  
  
# 加载数据  
data = [("Alice", "喜欢水果"), ("Bob", "喜欢篮球"), ("Charlie", "喜欢足球水果"), ("David", "喜欢篮球乒乓球")]  
df = spark.createDataFrame(data, ["name", "interests"])  
  
# 筛选出 interests 列中包含 "篮球" 的行  
filtered_df = df.filter(df["interests"].contains("篮球"))  
  
# 显示筛选结果  
filtered_df.show()

运行结果:

python 复制代码
+-------+---------+  
|   name|interests|  
+-------+---------+  
|    Bob|喜欢篮球|  
| David|喜欢篮球乒乓球|  
+-------+---------+
相关推荐
openKylin5 分钟前
从单点登录到全域安全,openKylin支撑国家电投数字身份认证创新实践
大数据·人工智能·安全
早睡早起早日毕业9 分钟前
大数据管理与应用系列丛书《大数据平台架构》之第4章 Hadoop 分布式文件系统 (HDFS)
大数据·hadoop·架构
无心水10 分钟前
【Hermes:核心机制】9、40+ 内置工具全解:执行/信息/媒体/记忆/协调五大类 —— 智能体手脚架完全手册
大数据·人工智能·openclaw·养龙虾·hermes·养马
sheji1051 小时前
扫地机器人行业深度分析报告
大数据·人工智能·机器人·智能硬件
SQL必知必会1 小时前
SQL 数据分析入门:如何把业务问题翻译成 SQL 查询
大数据·sql·数据分析
财迅通Ai1 小时前
德福科技2025年净利增长145.91% 高端突破引领成长新篇
大数据·人工智能·科技·德福科技
xinlianyq2 小时前
DeFi监管框架落地,美国认定多数代币为大宗商品
大数据·人工智能·区块链
璞华Purvar2 小时前
2026医疗器械敷料与功能性护肤品行业PLM解决方案:璞华易研PLM+AI破解妆械一体化研发难题
大数据·人工智能
2501_933329552 小时前
AI 赋能媒介宣发新范式:Infoseek 重构企业品牌传播效率
大数据·人工智能·自然语言处理·架构
科技风向标go2 小时前
2026 年中国消费级监控售后现状与行业发展趋势研究;安防监控怎么选?认准全国联保 + 真质保更安心
大数据·网络·人工智能·监控·户外安防