第16天：综合训练——数据去重

小郑加油2026-05-28 15:28

阶段：综合训练

学习内容：数据重复值处理

核心知识点：查找与删除重复行

当日目标：清洗行重复的数据

练习任务：去重并保存

1. 什么是数据去重？

（1）核心思想：现实中由于系统错误或人工重复录入，表格里经常会出现一模一样的"倒霉行"。数据去重就是把这些完全重复的行找出来，只留下一行，剩下的全部删掉。

（2）电脑做法：pandas 会自动比对每一行，发现内容完全一致时，默认保留第一次出现的行，后面出现的直接"抹除"。

2. 今日原材料准备（修改 `data.csv`）

为了测试去重功能，请用记事本打开 data.csv，故意制造两行完全相同的数据（比如让 alice 出现两次），修改为以下内容：

复制代码

name,score
alice,100
ben,98
keely,87
delio,99
alice,100

3. 核心去重指令

df.duplicated()：检查哪些行是重复的（返回是/否）。
df.drop_duplicates()：直接删掉重复的行，只留下一行。

4. 完整代码

Python

复制代码

import pandas as pd

# 1. 读取含有重复值的数据
df = pd.read_csv('data.csv')
print("--- 1. 原始包含重复项的数据 ---")
print(df)

# 2. 检查重复行（额外查看，True 代表这一行是重复的）
print("\n--- 2. 检查哪些行重复了 ---")
print(df.duplicated())

# 3. 执行去重
# drop_duplicates() 会自动删掉后面重复的 alice
df_unique = df.drop_duplicates()
print("\n--- 4. 去重后的干净数据 ---")
print(df_unique)

# 4. 保存去重后的数据
df_unique.to_csv('unique_data.csv', index=False)
print("\n--- 去重数据已保存至 unique_data.csv ---")

上一篇：动环监控系统的核心功能及其在机房管理中的应用效果是什么？

下一篇：阻容品牌推荐

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI科技热点日报 | 2026年07月01日 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07【AI前线观察】2026年国产开源大模型全面横评：从 DeepSeek V4 到 Kimi K3，谁才是开发者的最优选择？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 年 AI 大模型 & AI 编程工具实战全总结 102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？