pysaprk 筛选一列中包含某个字符串的行

在 PySpark 中,你可以使用 filter 函数来筛选出一列中包含某个字符串的行。以下是一个示例代码:

python 复制代码
from pyspark.sql import SparkSession  
  
# 创建 SparkSession  
spark = SparkSession.builder.appName("筛选包含特定字符串的行").getOrCreate()  
  
# 加载数据  
data = [("Alice", "喜欢水果"), ("Bob", "喜欢篮球"), ("Charlie", "喜欢足球水果"), ("David", "喜欢篮球乒乓球")]  
df = spark.createDataFrame(data, ["name", "interests"])  
  
# 筛选出 interests 列中包含 "篮球" 的行  
filtered_df = df.filter(df["interests"].contains("篮球"))  
  
# 显示筛选结果  
filtered_df.show()

运行结果:

python 复制代码
+-------+---------+  
|   name|interests|  
+-------+---------+  
|    Bob|喜欢篮球|  
| David|喜欢篮球乒乓球|  
+-------+---------+
相关推荐
量化君也11 分钟前
快速入门量化交易都要学些什么?
大数据·人工智能·python·算法·金融
吴卫斌11 分钟前
行业ETF轮动策略实战(二):精选候选池——打造你的赛道武器库
大数据·python·股票·量化交易
方向研究17 分钟前
破解蒙代尔三角
大数据
大任视点22 分钟前
从云经济学之父,到人工智能经济学奠基人
大数据·人工智能·业界资讯
Antom全球收单26 分钟前
跨境B2B支付平台与全球收单平台有什么区别?一文讲清
大数据
科技风向标go29 分钟前
QYResearch联合发布:《2026室外网络摄像头行业白皮书》格行视精灵成用户室外硬核环境首选监控
大数据·网络·安全·监控·户外安防
珠***格39 分钟前
Ⅱ型边缘网关|易部署、易扩容、易改造
大数据·人工智能·分布式·能源·边缘计算
-山中问答-1 小时前
【大数据系统分析与设计】架构、应用系统结构化分析核心知识点
大数据·架构·系统分析
站斧小威1 小时前
跨境电商防关联浏览器指南:Shopee/Lazada防关联方案
大数据
AI_yangxi1 小时前
短视频矩阵系统哪个好
大数据·人工智能·矩阵