使用 Python 自动处理 Excel 数据缺失值的完整指南

在数据分析中，数据清洗是至关重要的第一步。尤其在处理 Excel 文件时，缺失值（Missing Values）常常会阻碍分析流程。本文将通过一个自动化脚本 ，展示如何使用 Python 的 pandas 和 scikit-learn 库，快速填充或删除 Excel 文件中的缺失值，并最终生成干净的数据集。

1. 问题背景

在分析 Excel 文件时，缺失值可能以 NaN、空单元格或特殊符号（如 ?）的形式存在。手动处理这些缺失值耗时且容易出错，因此需要自动化解决方案。例如，你可能遇到以下场景：

销售数据：某个月份的销售额未记录。
用户调研表：部分受访者未填写年龄或性别。
传感器数据：设备故障导致部分时间点无记录。

2. 核心工具与原理

工具选择

pandas：Python 数据处理的标准库，用于读取 Excel 文件和数据操作。
scikit-learn ：机器学习库中的 SimpleImputer 模块，提供缺失值填充的自动化方法。

填充策略

数值型数据 ：用列均值（mean）或中位数（median）填充。
类别型数据 ：用众数（most_frequent）填充。
极端情况：若缺失值占比过高，可直接删除该列或行。

3. 代码实现步骤详解

以下是基于你提供的代码的完整实现流程：

步骤 1：读取 Excel 文件

python 复制代码

import pandas as pd

# 读取 Excel 文件
df = pd.read_excel("mx-toys.xlsx")

步骤 2：分离数值型和类别型数据

python 复制代码

# 分离数值型和非数值型列
numeric_cols = df.select_dtypes(include=['number']).columns
categorical_cols = df.select_dtypes(exclude=['number']).columns

步骤 3：填充数值型缺失值（均值填充）

python 复制代码

from sklearn.impute import SimpleImputer

# 创建数值型填充器（均值策略）
numeric_imputer = SimpleImputer(strategy='mean')

# 填充数值列并转换为 DataFrame
df_numeric = pd.DataFrame(
    numeric_imputer.fit_transform(df[numeric_cols]),
    columns=numeric_cols
)

步骤 4：填充类别型缺失值（众数填充）

python 复制代码

# 创建类别型填充器（众数策略）
categorical_imputer = SimpleImputer(strategy='most_frequent')

# 填充类别列并转换为 DataFrame
df_categorical = pd.DataFrame(
    categorical_imputer.fit_transform(df[categorical_cols]),
    columns=categorical_cols
)

步骤 5：合并处理后的数据

python 复制代码

# 合并数值和类别数据
df_cleaned = pd.concat([df_numeric, df_categorical], axis=1)

步骤 6：保存清洗后的数据

python 复制代码

# 保存为新的 Excel 文件
df_cleaned.to_excel("cleaned_mx-toys.xlsx", index=False)

4. 注意事项与扩展

注意事项

数据类型检查 ：
- 确保 select_dtypes 正确分离数值和类别列（如 object 类型可能包含文本或日期，需额外处理）。
异常值检测 ：
- 填充均值可能受异常值影响，可改用中位数（strategy='median'）。
删除策略 ：
- 若某列缺失值过多（如超过 50%），可直接删除：
  python 复制代码
```
df = df.dropna(thresh=len(df)*0.5, axis=1)
```

扩展功能

可视化缺失值分布 ：
使用 missingno 库快速查看缺失值分布：
python 复制代码
```
import missingno as msno
msno.matrix(df).show()
```
自定义填充逻辑 ：
- 对于时间序列数据，可使用插值法（interpolate()）。
- 对于类别型数据，可填充特定值（如 N/A）：
  python 复制代码
```
df_categorical.fillna("Unknown", inplace=True)
```

5. 完整代码与示例

python 复制代码

import pandas as pd
from sklearn.impute import SimpleImputer

def clean_excel_file(file_path, output_path):
    """
    自动处理 Excel 文件中的缺失值：
    1. 数值型列填充均值
    2. 类别型列填充众数
    3. 保存清洗后的数据
    """
    # 读取数据
    df = pd.read_excel(file_path)
    
    # 分离数值和类别列
    numeric_cols = df.select_dtypes(include=['number']).columns
    categorical_cols = df.select_dtypes(exclude=['number']).columns
    
    # 处理数值列
    numeric_imputer = SimpleImputer(strategy='mean')
    df_numeric = pd.DataFrame(
        numeric_imputer.fit_transform(df[numeric_cols]),
        columns=numeric_cols
    )
    
    # 处理类别列
    categorical_imputer = SimpleImputer(strategy='most_frequent')
    df_categorical = pd.DataFrame(
        categorical_imputer.fit_transform(df[categorical_cols]),
        columns=categorical_cols
    )
    
    # 合并数据并保存
    df_cleaned = pd.concat([df_numeric, df_categorical], axis=1)
    df_cleaned.to_excel(output_path, index=False)
    print(f"数据已清洗并保存至 {output_path}")

# 使用示例
clean_excel_file("mx-toys.xlsx", "cleaned_mx-toys.xlsx")

总结

通过上述方法，你可以快速自动化处理 Excel 文件中的缺失值，为后续分析奠定基础。如果需要更复杂的处理（如插值、预测填充），可以结合其他库（如 clevercsv 或 pandas 的 interpolate 方法）进一步优化。

下一步建议：

尝试用 mode() 替换 SimpleImputer，对比结果差异。
对清洗后的数据进行可视化分析（如用 matplotlib 或 seaborn）。
封装为可复用的函数，集成到数据分析工作流中。

希望这篇博客能帮助你高效处理数据缺失值！如果有任何问题或改进想法，欢迎在评论区交流。

使用 Python 自动处理 Excel 数据缺失值的完整指南

目录

1. 问题背景

2. 核心工具与原理

工具选择

填充策略

3. 代码实现步骤详解

步骤 1：读取 Excel 文件

步骤 2：分离数值型和类别型数据

步骤 3：填充数值型缺失值（均值填充）

步骤 4：填充类别型缺失值（众数填充）

步骤 5：合并处理后的数据

步骤 6：保存清洗后的数据

4. 注意事项与扩展

注意事项

扩展功能

5. 完整代码与示例

总结