python学习Day15:综合训练——数据清洗与缺失值补充

  • 阶段:综合训练

  • 学习内容:数据清洗与缺失值处理

  • 核心知识点:处理空值

  • 当日目标:清洗不完整数据

  • 练习任务 :处理空值并保存


1. 什么是数据清洗(缺失值处理)?

(1)核心思想 :现实生活中的表格经常有漏填的格子(在 Python 里显示为 NaN,即 Not a Number)。数据清洗就是把这些空位置处理好,避免计算报错。

(2)常见处理做法 : * :把有空缺值的整行删掉。 * :用某个固定的数字(比如 0)或平均分把空位填满。


2. 今日原材料准备(修改 data.csv

在运行代码前,请用记事本打开你的 data.csv,故意留出空位,修改为以下内容(注意 Bob 和 Eve 的分数后面是空的):

复制代码
name,score
alice,100
ben,98
keely,87
delio,99
bob,
eve,

3. 核心清洗指令

  • df.dropna():只要有空格子,直接删掉那一行。

  • df.fillna(0):把所有空缺的格子都填上 0。


4. 第15天完整代码

复制代码
import pandas as pd

# 1. 读取含有空缺值的数据
df = pd.read_csv('data.csv')
print("--- 原始带空缺值的数据 ---")
print(df)

# 2. 做法 A:删除空缺值所在的行
# dropna() 会把含有 NaN 的行直接滤掉
df_clean = df.dropna()
print("\n--- 做法A:删掉空缺行后的数据 ---")
print(df_clean)

# 3. 做法 B:把空缺值补上 0(更常用)
# fillna(0) 会把所有 NaN 变成 0
df_filled = df.fillna(0)
print("\n--- 做法B:空缺处补0后的数据 ---")
print(df_filled)

# 4. 保存清洗后的干净数据
df_filled.to_csv('clean_data.csv', index=False)
print("\n--- 干净数据已保存至 clean_data.csv ---")
相关推荐
完成大叔6 小时前
Agent入门:用本地模型从零搭建
开发语言·python·langchain
rGzywSmDg6 小时前
如何在Dev-C++中设置TDM-GCC为默认编译器
开发语言·c++
颂love6 小时前
Linux命令的简单学习
linux·运维·学习
叶~小兮6 小时前
Kubernetes集群升级与证书更新 学习笔记
笔记·学习·kubernetes
xyq20246 小时前
Ruby 日期 & 时间处理指南
开发语言
qxwlcsdn6 小时前
CSS如何实现元素镜像翻转_使用transformscalex负值
jvm·数据库·python
2301_803934616 小时前
mysql如何处理大量重复值索引_mysql索引存储特征分析
jvm·数据库·python