pysaprk 筛选一列中包含某个字符串的行

在 PySpark 中,你可以使用 filter 函数来筛选出一列中包含某个字符串的行。以下是一个示例代码:

python 复制代码
from pyspark.sql import SparkSession  
  
# 创建 SparkSession  
spark = SparkSession.builder.appName("筛选包含特定字符串的行").getOrCreate()  
  
# 加载数据  
data = [("Alice", "喜欢水果"), ("Bob", "喜欢篮球"), ("Charlie", "喜欢足球水果"), ("David", "喜欢篮球乒乓球")]  
df = spark.createDataFrame(data, ["name", "interests"])  
  
# 筛选出 interests 列中包含 "篮球" 的行  
filtered_df = df.filter(df["interests"].contains("篮球"))  
  
# 显示筛选结果  
filtered_df.show()

运行结果:

python 复制代码
+-------+---------+  
|   name|interests|  
+-------+---------+  
|    Bob|喜欢篮球|  
| David|喜欢篮球乒乓球|  
+-------+---------+
相关推荐
tctasia3 小时前
TCT Asia 2026现场观察:中国增材制造,已经进入“规模化时刻”(上)
大数据·人工智能·制造
疯狂成瘾者3 小时前
产品经理职业变迁
大数据·产品经理
Data-Miner4 小时前
51页可编辑PPT | 农产品区块链溯源信息化平台整体解决方案
大数据
智慧医院运行管理解决方案专家4 小时前
中科医信杜鹏:「数据驱动,孪生赋能」,数据资产是医院智慧管理的核心要素之一
大数据·人工智能·数字孪生·智慧医工管理
珠海西格电力4 小时前
鄂尔多斯零碳产业园管理系统的核心功能解析
大数据·运维·人工智能·物联网·能源
Yolo566Q5 小时前
基于Python语言快速批量运行DSSAT模型及交叉融合、扩展应用技术应用
大数据·人工智能
KuAI_KST5 小时前
2026 抖音私信 AI 客服实战手册:快商通 AI 与人工回复转化对比实测
大数据·人工智能·机器学习
A_QXBlms5 小时前
企微私域工具SOP自动化实战:3条核心流程配置教程
大数据·自动化·企业微信
NOCSAH5 小时前
体验统好AI租赁管理:业务闭环与智能数据决策
大数据·人工智能·统好ai
Gofarlic_OMS6 小时前
SolidEdge专业许可证管理工具选型关键评估标准
java·大数据·运维·服务器·人工智能