pysaprk 筛选一列中包含某个字符串的行

在 PySpark 中,你可以使用 filter 函数来筛选出一列中包含某个字符串的行。以下是一个示例代码:

python 复制代码
from pyspark.sql import SparkSession  
  
# 创建 SparkSession  
spark = SparkSession.builder.appName("筛选包含特定字符串的行").getOrCreate()  
  
# 加载数据  
data = [("Alice", "喜欢水果"), ("Bob", "喜欢篮球"), ("Charlie", "喜欢足球水果"), ("David", "喜欢篮球乒乓球")]  
df = spark.createDataFrame(data, ["name", "interests"])  
  
# 筛选出 interests 列中包含 "篮球" 的行  
filtered_df = df.filter(df["interests"].contains("篮球"))  
  
# 显示筛选结果  
filtered_df.show()

运行结果:

python 复制代码
+-------+---------+  
|   name|interests|  
+-------+---------+  
|    Bob|喜欢篮球|  
| David|喜欢篮球乒乓球|  
+-------+---------+
相关推荐
跨境数据猎手2 分钟前
大数据在电商行业的应用
大数据·运维·爬虫
绿算技术1 小时前
万卡推理集群存储选型分析:从核心架构到应用视角
大数据·科技·算法·架构
朴马丁3 小时前
预制菜的“数字厨房”:PLM如何支撑菜品标准化与供应链高效协同?
大数据·人工智能·食品行业·流程行业plm
奋斗的老史4 小时前
Spring-Boot 集成 TDengine 完整实战
大数据·时序数据库·tdengine
郑洁文4 小时前
音乐数据分析研究与应用
大数据·数据挖掘·数据分析·音乐数据分析
成长之路5145 小时前
【实证分析】地市环境规制综合指数测算-原始数据+do代码(2011-2024年)
大数据
逸模6 小时前
AI+BIM 重构连锁公装新范式 逸模打造数字化营建核心底座
大数据·人工智能·笔记·其他·信息可视化·重构
谁似人间西林客7 小时前
工业大数据实战:看中国智造如何用数据驱动效率革命
大数据·单例模式
2501_933670797 小时前
数学成绩偏弱是否能填报大数据专业
大数据
陆水A7 小时前
【实时数仓·3】Flink多表JOIN状态爆炸——Event Time Temporal JOIN + TTL分层治理
大数据·数据仓库·数据分析·flink·数据库开发·bigdata