第16天:综合训练——数据去重

  • 阶段:综合训练

  • 学习内容:数据重复值处理

  • 核心知识点:查找与删除重复行

  • 当日目标:清洗行重复的数据

  • 练习任务:去重并保存

1. 什么是数据去重?

(1)核心思想:现实中由于系统错误或人工重复录入,表格里经常会出现一模一样的"倒霉行"。数据去重就是把这些完全重复的行找出来,只留下一行,剩下的全部删掉。

(2)电脑做法:pandas 会自动比对每一行,发现内容完全一致时,默认保留第一次出现的行,后面出现的直接"抹除"。

2. 今日原材料准备(修改 data.csv

为了测试去重功能,请用记事本打开 data.csv,故意制造两行完全相同的数据(比如让 alice 出现两次),修改为以下内容:

复制代码
name,score
alice,100
ben,98
keely,87
delio,99
alice,100

3. 核心去重指令

  • df.duplicated():检查哪些行是重复的(返回是/否)。

  • df.drop_duplicates():直接删掉重复的行,只留下一行。

4. 完整代码

Python

复制代码
import pandas as pd

# 1. 读取含有重复值的数据
df = pd.read_csv('data.csv')
print("--- 1. 原始包含重复项的数据 ---")
print(df)

# 2. 检查重复行(额外查看,True 代表这一行是重复的)
print("\n--- 2. 检查哪些行重复了 ---")
print(df.duplicated())

# 3. 执行去重
# drop_duplicates() 会自动删掉后面重复的 alice
df_unique = df.drop_duplicates()
print("\n--- 4. 去重后的干净数据 ---")
print(df_unique)

# 4. 保存去重后的数据
df_unique.to_csv('unique_data.csv', index=False)
print("\n--- 去重数据已保存至 unique_data.csv ---")
相关推荐
CRMEB系统商城1 天前
CRMEB多商户系统(Java)v2.3公测版发布
java·开发语言·人工智能·小程序·开源·php
嫂子的姐夫1 天前
050-wx小程序合肥住房
爬虫·python·小程序·逆向
Geek_Vison1 天前
政务一网通APP如何引入AI能力,通过一个AI助手就能够调用所有的功能,实现对话即办事
人工智能·ai·小程序·uni-app·小程序容器
黄华SJ520it1 天前
跨境分销小程序:全球市场新机遇
小程序·系统开发
爱分享的小诺1 天前
微信小程序2.0人脸审核,1.0升级到2.0
微信小程序·小程序
打瞌睡的朱尤1 天前
微信小程序(黑马)4-5
微信小程序·小程序
海兰2 天前
【小程序】基于 AI 大语言模型驱动的中国古典诗词 Web 应用详细设计指南
人工智能·语言模型·小程序
博客zhu虎康2 天前
小程序:UGC自定义发布内容接入微信公众平台内容安全API(imgSecCheck、msgSecCheck、mediaCheckAsync)
安全·小程序·微信公众平台
博客zhu虎康3 天前
小程序:解决小程序发布上线后无分享功能
小程序
tuanyuan99o4 天前
2026商城小程序的安全怎么保障?防止黑客攻击和数据泄露
安全·小程序