一、啥是数据清洗?
想象你在菜市场买了一筐西红柿,里面夹着:
-
烂叶子(缺失值)
-
烂番茄(异常值)
-
贴了两层标签(重复数据)
-
有的写"番茄",有的写"西红柿"(单位/格式不统一)
数据清洗 = 把坏的挑出去,把好的洗干净,再切成一样大小的块,方便下锅。
二、啥是脏数据?给你 4 个常见种类
| 场景 | 脏数据截图(文字版) | 后果 |
|---|---|---|
| 1. 缺失值 | 年龄:空、999、-1 | 平均年龄算出来 188 岁,不合常理 |
| 2. 重复值 | 张三买了 3 次会员,订单号一模一样 | 营收虚高 2 倍,容易导致误判 |
| 3. 单位乱 | 有的"元",有的"万元" | 可视化视图分析错误,坐标轴长度显示错误 |
| 4. 异常值 | 身高 3.5 米、体重 0.5 千克 | 机器学习模型直接"怀疑人生" |
三、数据清洗的"三步曲"------像洗菜一样简单
① 挑拣(Remove)
-
烂番茄:删除整行
-
烂叶子:缺失太多直接整列扔掉
-
工具:Excel 筛选、Python
dropna()、Power Query"删除空值"
② 修剪(Replace)
-
标签统一:西红柿 = 番茄
-
单位统一:全部换算成"元"
-
异常值:身高 3.5 米 → 空值,等人工核实
-
工具:Excel
SUBSTITUTE()、Pythonreplace()、PQ"替换值"
③ 装盘(Reformat)
-
日期格式:2025/1/1、2025-01-01、01-Jan-2025 → 统一 2025-01-01
-
字符串/数字:把"1.2万"变成 12000
-
工具:PQ"更改类型"一键搞定,Python
pd.to_datetime()
四、上手上手!3 个"秒学会"的清洗小技能
技能 1:Excel 1 分钟去重
选中数据 → 数据 → 删除重复值 → 搞定!
技能 2:Power Query 一键补空
转换数据 → 右键列 → 填充 → 向下填充(空值自动补上面的值)
技能 3:Python 3 行代码(咱们之前人工智能备考里面也有这些代码)
import pandas as pd
df = pd.read_csv('dirty.csv')
df_clean = df.dropna().drop_duplicates()
df_clean.to_csv('clean.csv', index=False)
运行完,脏数据变净数据,文件直接生成。
五、清洗完了有啥用?
| 环节 | 没清洗 | 清洗后 |
|---|---|---|
| 报表 | 柱状图负数柱子往下长 | 坐标轴正常,清晰直观 |
| 机器学习 | 模型准确率 45% | 准确率 92%,提高准确性 |
| 风控 | 把"3.5 米"当真,拒贷正常客户 | 异常值剔除,坏账率降 30% |
| 运营 | 重复会员发 3 次券,血亏 | 精准触达,ROI 翻 2 倍 |
六、一张图记住全流程

七、常见疑问,一句话答
Q:清洗到什么程度算完?
A:能让"计算机"和"人类"都看懂就行,别追求 100% 完美,80% 干净就够下锅。
Q:谁来洗?必须会代码吗?
A:Excel/Power Query 足够应付 90% 场景;数据量>10 万行或要自动化,再学 Python。
Q:洗错了怎么办?
A:清洗前一定备份原始文件 ,命名 xxx_raw.csv,留条后路。