在Spark SQL中，fillna函数

一座野山2024-06-04 21:29

前言

[以下是在Spark SQL中使用fillna函数的示例代码：](#以下是在Spark SQL中使用fillna函数的示例代码：)

运行以上代码将输出：

总结

前言

在Spark SQL中，fillna函数用于填充DataFrame或Dataset中的缺失值（NULL或NaN）。它可以根据指定的列名和值来替换缺失值，以便进行数据清洗和预处理。

以下是在Spark SQL中使用fillna函数的示例代码：

python 复制代码

# 导入必要的库
from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例DataFrame
data = [("Alice", 25, None), ("Bob", None, 180.0), ("Charlie", 35, 175.2)]
df = spark.createDataFrame(data, ["name", "age", "height"])

# 使用fillna函数填充缺失值
filled_df = df.fillna({"age": 0, "height": 0.0})

# 显示填充后的DataFrame
filled_df.show()

运行以上代码将输出：

python 复制代码

+-------+---+------+
|   name|age|height|
+-------+---+------+
|  Alice| 25|   0.0|
|    Bob|  0| 180.0|
|Charlie| 35| 175.2|
+-------+---+------+

总结

在上述示例中，首先创建了一个包含姓名、年龄和身高的DataFrame，并且其中包含了一些缺失值（用None表示）。然后，使用fillna函数将缺失值替换为指定的值。在本例中，我们将年龄的缺失值替换为0，将身高的缺失值替换为0.0。填充后得到的DataFrame存储在filled_df变量中。最后，使用show方法显示填充后的DataFrame。

需要注意的是，fillna函数的参数是一个字典，其中键表示要填充的列名，值表示要填充的值。您可以根据实际需求指定不同的列和填充值。

通过使用fillna函数，您可以对DataFrame或Dataset中的缺失值进行处理，以便进行后续的数据分析和建模操作。