-
阶段:综合训练
-
学习内容:数据清洗与缺失值处理
-
核心知识点:处理空值
-
当日目标:清洗不完整数据
-
练习任务 :处理空值并保存

1. 什么是数据清洗(缺失值处理)?
(1)核心思想 :现实生活中的表格经常有漏填的格子(在 Python 里显示为 NaN,即 Not a Number)。数据清洗就是把这些空位置处理好,避免计算报错。
(2)常见处理做法 : * 删 :把有空缺值的整行删掉。 * 补:用某个固定的数字(比如 0)或平均分把空位填满。
2. 今日原材料准备(修改 data.csv)
在运行代码前,请用记事本打开你的 data.csv,故意留出空位,修改为以下内容(注意 Bob 和 Eve 的分数后面是空的):
name,score
alice,100
ben,98
keely,87
delio,99
bob,
eve,
3. 核心清洗指令
-
df.dropna():只要有空格子,直接删掉那一行。 -
df.fillna(0):把所有空缺的格子都填上 0。
4. 第15天完整代码
import pandas as pd
# 1. 读取含有空缺值的数据
df = pd.read_csv('data.csv')
print("--- 原始带空缺值的数据 ---")
print(df)
# 2. 做法 A:删除空缺值所在的行
# dropna() 会把含有 NaN 的行直接滤掉
df_clean = df.dropna()
print("\n--- 做法A:删掉空缺行后的数据 ---")
print(df_clean)
# 3. 做法 B:把空缺值补上 0(更常用)
# fillna(0) 会把所有 NaN 变成 0
df_filled = df.fillna(0)
print("\n--- 做法B:空缺处补0后的数据 ---")
print(df_filled)
# 4. 保存清洗后的干净数据
df_filled.to_csv('clean_data.csv', index=False)
print("\n--- 干净数据已保存至 clean_data.csv ---")