第16天:综合训练——数据去重

  • 阶段:综合训练

  • 学习内容:数据重复值处理

  • 核心知识点:查找与删除重复行

  • 当日目标:清洗行重复的数据

  • 练习任务:去重并保存

1. 什么是数据去重?

(1)核心思想:现实中由于系统错误或人工重复录入,表格里经常会出现一模一样的"倒霉行"。数据去重就是把这些完全重复的行找出来,只留下一行,剩下的全部删掉。

(2)电脑做法:pandas 会自动比对每一行,发现内容完全一致时,默认保留第一次出现的行,后面出现的直接"抹除"。

2. 今日原材料准备(修改 data.csv

为了测试去重功能,请用记事本打开 data.csv,故意制造两行完全相同的数据(比如让 alice 出现两次),修改为以下内容:

复制代码
name,score
alice,100
ben,98
keely,87
delio,99
alice,100

3. 核心去重指令

  • df.duplicated():检查哪些行是重复的(返回是/否)。

  • df.drop_duplicates():直接删掉重复的行,只留下一行。

4. 完整代码

Python

复制代码
import pandas as pd

# 1. 读取含有重复值的数据
df = pd.read_csv('data.csv')
print("--- 1. 原始包含重复项的数据 ---")
print(df)

# 2. 检查重复行(额外查看,True 代表这一行是重复的)
print("\n--- 2. 检查哪些行重复了 ---")
print(df.duplicated())

# 3. 执行去重
# drop_duplicates() 会自动删掉后面重复的 alice
df_unique = df.drop_duplicates()
print("\n--- 4. 去重后的干净数据 ---")
print(df_unique)

# 4. 保存去重后的数据
df_unique.to_csv('unique_data.csv', index=False)
print("\n--- 去重数据已保存至 unique_data.csv ---")
相关推荐
m0_5261194013 天前
iconfont我修改好颜色,但是在小程序项目是黑色的
小程序
2601_9567436814 天前
2026 上海小程序开发甄选:源码、云函数、跨端兼容技术评判
小程序·开发经验·上海
IT_张三14 天前
CSDN-项目分享-暑期备考小程序
小程序
IsJunJianXin14 天前
pdd小程序 cdp 保存响应体
linux·服务器·小程序·pdd小程序·拼多多响应体解密·小程序cdp·拼多多rpc取响应体
Geek_Vison14 天前
APP瘦身实战:从80MB+砍到15MB——基于小程序容器技术剥离APP非核心业务的实践分享
小程序·uni-app·mpaas
weikecms14 天前
聚合返利CPS小程序快速搭建教程
人工智能·微信·小程序
Haibakeji15 天前
长沙餐饮门店点餐配送小程序定制开发
大数据·小程序
2501_9159184115 天前
iOS App性能测试工具的实现方法与优化循环指南
android·ios·小程序·https·uni-app·iphone·webview
程序鉴定师15 天前
2026济南十大App制作公司测评(精简版):覆盖小程序、定制开发与跨平台方案
大数据·小程序
斯内普吖15 天前
(开源)高校素拓分管理系统小程序实战指南 基于 Java + SpringBoot + uni-app + Vue + MySQL
java·spring boot·mysql·小程序·uni-app·开源