pysaprk 筛选一列中包含某个字符串的行

在 PySpark 中,你可以使用 filter 函数来筛选出一列中包含某个字符串的行。以下是一个示例代码:

python 复制代码
from pyspark.sql import SparkSession  
  
# 创建 SparkSession  
spark = SparkSession.builder.appName("筛选包含特定字符串的行").getOrCreate()  
  
# 加载数据  
data = [("Alice", "喜欢水果"), ("Bob", "喜欢篮球"), ("Charlie", "喜欢足球水果"), ("David", "喜欢篮球乒乓球")]  
df = spark.createDataFrame(data, ["name", "interests"])  
  
# 筛选出 interests 列中包含 "篮球" 的行  
filtered_df = df.filter(df["interests"].contains("篮球"))  
  
# 显示筛选结果  
filtered_df.show()

运行结果:

python 复制代码
+-------+---------+  
|   name|interests|  
+-------+---------+  
|    Bob|喜欢篮球|  
| David|喜欢篮球乒乓球|  
+-------+---------+
相关推荐
阿里云大数据AI技术4 分钟前
活动报名 | Apache Spark Meetup · 上海站,助力企业构建高效数据平台
spark
数据猿37 分钟前
【金猿人物展】涛思数据创始人、CEO陶建辉:实现AI时代时序数据库向“数据平台”的转型
大数据·数据库·人工智能·时序数据库·涛思数据
GIS数据转换器1 小时前
2025无人机遥感新国标解读
大数据·科技·安全·机器学习·无人机·智慧城市
Light601 小时前
破局“数据孤岛”:构建业务、财务、指标三位一体的智能数据模型
java·大数据·开发语言
一个java开发1 小时前
Dask 配置文件加载机制说明
大数据·python
半夏知半秋1 小时前
Elasticsearch Query DSL 指令整理
大数据·数据库·笔记·学习·elasticsearch·搜索引擎·全文检索
doris6101 小时前
设备点检、保养、维修一站式解决方案
大数据·数据库·人工智能
EriccoShaanxi1 小时前
穿越高温地层:加速度计如何成为石油钻井的核心感官
大数据·算法
半夏知半秋1 小时前
Elasticsearch专用的ES|QL语法指令整理
大数据·数据库·elasticsearch·搜索引擎·全文检索
AI营销快线2 小时前
金融AI内容合规,三类系统怎么选?
大数据·人工智能