pysaprk 筛选一列中包含某个字符串的行

在 PySpark 中,你可以使用 filter 函数来筛选出一列中包含某个字符串的行。以下是一个示例代码:

python 复制代码
from pyspark.sql import SparkSession  
  
# 创建 SparkSession  
spark = SparkSession.builder.appName("筛选包含特定字符串的行").getOrCreate()  
  
# 加载数据  
data = [("Alice", "喜欢水果"), ("Bob", "喜欢篮球"), ("Charlie", "喜欢足球水果"), ("David", "喜欢篮球乒乓球")]  
df = spark.createDataFrame(data, ["name", "interests"])  
  
# 筛选出 interests 列中包含 "篮球" 的行  
filtered_df = df.filter(df["interests"].contains("篮球"))  
  
# 显示筛选结果  
filtered_df.show()

运行结果:

python 复制代码
+-------+---------+  
|   name|interests|  
+-------+---------+  
|    Bob|喜欢篮球|  
| David|喜欢篮球乒乓球|  
+-------+---------+
相关推荐
edisao12 分钟前
二。星链真正危险的地方,不在天上,而在网络底层
大数据·网络·人工智能·python·科技·机器学习
Python_Study202513 分钟前
TOB机械制造企业获客困境与技术解决方案:从传统模式到数字化营销的架构升级
大数据·人工智能·架构
Gofarlic_OMS26 分钟前
如何将MATLAB网络并发许可证闲置率降至10%以下
大数据·运维·服务器·开发语言·人工智能·matlab·制造
行业探路者28 分钟前
提升产品宣传效果的二维码应用新趋势
大数据·人工智能·学习·二维码·产品介绍
humors2211 小时前
倪海厦讲解眼睛
大数据·程序人生
edisao1 小时前
四。SpaceX、网络化与未来的跨越:低成本、高频次的真正威胁
大数据·开发语言·人工智能·科技·php
瑞华丽PLM1 小时前
PLM系统中的BOM管理演进:从数据孤岛到全生命周期协同
大数据·人工智能·plm·国产plm·瑞华丽plm·瑞华丽
电商API_180079052471 小时前
1688商品详情采集API全解析:技术原理、实操指南与业务落地
大数据·前端·人工智能·网络爬虫
tiger1191 小时前
AI Agent 如何从演示到生产
大数据·大模型·提示词·ai agent
叫我:松哥1 小时前
基于Flask框架开发的二手房数据分析与推荐管理平台,集成大数据分析、机器学习预测和智能推荐技术
大数据·python·深度学习·机器学习·数据分析·flask