在Spark SQL中,fillna函数

目录

前言

[以下是在Spark SQL中使用fillna函数的示例代码:](#以下是在Spark SQL中使用fillna函数的示例代码:)

运行以上代码将输出:

总结


前言


在Spark SQL中,fillna函数用于填充DataFrame或Dataset中的缺失值(NULL或NaN)。它可以根据指定的列名和值来替换缺失值,以便进行数据清洗和预处理。

以下是在Spark SQL中使用fillna函数的示例代码:

python 复制代码
# 导入必要的库
from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例DataFrame
data = [("Alice", 25, None), ("Bob", None, 180.0), ("Charlie", 35, 175.2)]
df = spark.createDataFrame(data, ["name", "age", "height"])

# 使用fillna函数填充缺失值
filled_df = df.fillna({"age": 0, "height": 0.0})

# 显示填充后的DataFrame
filled_df.show()

运行以上代码将输出:


python 复制代码
+-------+---+------+
|   name|age|height|
+-------+---+------+
|  Alice| 25|   0.0|
|    Bob|  0| 180.0|
|Charlie| 35| 175.2|
+-------+---+------+

总结


在上述示例中,首先创建了一个包含姓名、年龄和身高的DataFrame,并且其中包含了一些缺失值(用None表示)。然后,使用fillna函数将缺失值替换为指定的值。在本例中,我们将年龄的缺失值替换为0,将身高的缺失值替换为0.0。填充后得到的DataFrame存储在filled_df变量中。最后,使用show方法显示填充后的DataFrame。

需要注意的是,fillna函数的参数是一个字典,其中键表示要填充的列名,值表示要填充的值。您可以根据实际需求指定不同的列和填充值。

通过使用fillna函数,您可以对DataFrame或Dataset中的缺失值进行处理,以便进行后续的数据分析和建模操作。

相关推荐
运维行者_1 分钟前
如何为您的企业选择最佳网络监控工具
大数据·运维·服务器·网络·数据库
KKKlucifer2 分钟前
2026 中国数据分类分级系统市场现状及竞争排名调研报告
大数据·分类·数据挖掘
GIS数据转换器1 小时前
无人机车载巡检系统
大数据·数据库·人工智能·数据挖掘·数据分析·无人机
逸模8 小时前
告别熬夜手工整理台账,逸模智能归集实现项目数据自动化存档
大数据·运维·人工智能·笔记·其他·信息可视化·自动化
rockey62710 小时前
基于AScript的SQL脚本语言发布啦!
sql·c#·.net·script·expression·动态脚本
audyxiao00110 小时前
ICLR 2026论文分享 | WorldGym:用世界模型打造机器人策略评估新范式
大数据·人工智能·大模型·智能体·世界模型
Rubin智造社11 小时前
Anthropic安全白皮书2|三级成熟度模型:你的AI智能体该配哪级安全?
大数据·安全·沙箱隔离·零信任成熟度模型·三级安全框架·jit权限·不可变审计
ACP广源盛1392462567311 小时前
GSV2221 显示转换芯片@ACP#赋能 RTX Spark 端侧 AI 设备,构建多屏全模态视觉交互新生态
大数据·人工智能·嵌入式硬件·gpt·spark·电脑·音视频
字节跳动开源11 小时前
你的 Agent 每次都“失忆”?这个工具彻底治好了我的前端开发焦虑
大数据·开源·agent
APItesterCris13 小时前
实战教程:借助 Open Claw + 淘宝商品 API,低成本实现电商自动化监控与智能选品
大数据·运维·自动化