数据分析基础——数据清洗

一、啥是数据清洗?

想象你在菜市场买了一筐西红柿,里面夹着:

  • 烂叶子(缺失值)

  • 烂番茄(异常值)

  • 贴了两层标签(重复数据)

  • 有的写"番茄",有的写"西红柿"(单位/格式不统一)

数据清洗 = 把坏的挑出去,把好的洗干净,再切成一样大小的块,方便下锅。


二、啥是脏数据?给你 4 个常见种类

场景 脏数据截图(文字版) 后果
1. 缺失值 年龄:空、999、-1 平均年龄算出来 188 岁,不合常理
2. 重复值 张三买了 3 次会员,订单号一模一样 营收虚高 2 倍,容易导致误判
3. 单位乱 有的"元",有的"万元" 可视化视图分析错误,坐标轴长度显示错误
4. 异常值 身高 3.5 米、体重 0.5 千克 机器学习模型直接"怀疑人生"

三、数据清洗的"三步曲"------像洗菜一样简单

① 挑拣(Remove)

  • 烂番茄:删除整行

  • 烂叶子:缺失太多直接整列扔掉

  • 工具:Excel 筛选、Python dropna()、Power Query"删除空值"

② 修剪(Replace)

  • 标签统一:西红柿 = 番茄

  • 单位统一:全部换算成"元"

  • 异常值:身高 3.5 米 → 空值,等人工核实

  • 工具:Excel SUBSTITUTE()、Python replace()、PQ"替换值"

③ 装盘(Reformat)

  • 日期格式:2025/1/1、2025-01-01、01-Jan-2025 → 统一 2025-01-01

  • 字符串/数字:把"1.2万"变成 12000

  • 工具:PQ"更改类型"一键搞定,Python pd.to_datetime()


四、上手上手!3 个"秒学会"的清洗小技能

技能 1:Excel 1 分钟去重

选中数据 → 数据 → 删除重复值 → 搞定!

技能 2:Power Query 一键补空

转换数据 → 右键列 → 填充 → 向下填充(空值自动补上面的值)

技能 3:Python 3 行代码(咱们之前人工智能备考里面也有这些代码)

复制代码
import pandas as pd
df = pd.read_csv('dirty.csv')
df_clean = df.dropna().drop_duplicates()
df_clean.to_csv('clean.csv', index=False)

运行完,脏数据变净数据,文件直接生成。


五、清洗完了有啥用?

环节 没清洗 清洗后
报表 柱状图负数柱子往下长 坐标轴正常,清晰直观
机器学习 模型准确率 45% 准确率 92%,提高准确性
风控 把"3.5 米"当真,拒贷正常客户 异常值剔除,坏账率降 30%
运营 重复会员发 3 次券,血亏 精准触达,ROI 翻 2 倍

六、一张图记住全流程


七、常见疑问,一句话答

Q:清洗到什么程度算完?

A:能让"计算机"和"人类"都看懂就行,别追求 100% 完美,80% 干净就够下锅。

Q:谁来洗?必须会代码吗?

A:Excel/Power Query 足够应付 90% 场景;数据量>10 万行或要自动化,再学 Python。

Q:洗错了怎么办?

A:清洗前一定备份原始文件 ,命名 xxx_raw.csv,留条后路。

相关推荐
还不秃顶的计科生2 小时前
如何快速用cmd知道某个文件夹下的子文件以及子文件夹的这个目录分支具体的分支结构
人工智能
九河云2 小时前
不同级别华为云代理商的增值服务内容与质量差异分析
大数据·服务器·人工智能·科技·华为云
Elastic 中国社区官方博客3 小时前
Elasticsearch:Microsoft Azure AI Foundry Agent Service 中用于提供可靠信息和编排的上下文引擎
大数据·人工智能·elasticsearch·microsoft·搜索引擎·全文检索·azure
大模型真好玩3 小时前
Gemini3.0深度解析,它在重新定义智能,会是前端工程师噩梦吗?
人工智能·agent·deepseek
机器之心3 小时前
AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
人工智能·openai
AAA修煤气灶刘哥3 小时前
从Coze、Dify到Y-Agent Studio:我的Agent开发体验大升级
人工智能·低代码·agent
陈佬昔没带相机3 小时前
MiniMax M2 + Trae 编码评测:能否与 Claude 4.5 扳手腕?
前端·人工智能·ai编程
美狐美颜SDK开放平台3 小时前
从0到1开发直播美颜SDK:算法架构、模型部署与跨端适配指南
人工智能·架构·美颜sdk·直播美颜sdk·第三方美颜sdk·美狐美颜sdk
小陈phd3 小时前
RAG从入门到精通(四)——结构化数据读取与导入
人工智能·langchain
玖日大大3 小时前
Trae:字节跳动 AI 原生 IDE 的技术革命与实战指南
ide·人工智能