python 数据清洗基础教程

使用Python进行处理数据集删减的步骤通常包括数据清洗、数据分析和数据采样。以下是一些基本的示例代码,展示了如何使用Python进行这些操作:

  1. 数据清洗
    • 删除重复项:
python 复制代码
import pandas as pd
# 假设数据集是一个CSV文件
df = pd.read_csv('dataset.csv')
# 删除重复行
df.drop_duplicates(inplace=True)
  • 删除含有空值的行:
python 复制代码
df.dropna(inplace=True)
  • 删除特定条件的数据:
python 复制代码
# 删除包含特定关键词的行
df = df[~df['text_column'].str.contains('特定关键词')]
# 删除长度过短的文本
df = df[df['text_column'].str.len() > 10]
  1. 数据分析
    • 分析数据集的分布:
python 复制代码
# 查看每个类别的数量
category_counts = df['category_column'].value_counts()
# 如果类别不平衡,可以考虑进行采样
  1. 数据采样
    • 下采样或上采样以处理类别不平衡:
python 复制代码
from imblearn.over_sampling import RandomOverSampler
from imblearn.under_sampling import RandomUnderSampler
# 假设目标变量是'y_column'
X = df.drop('y_column', axis=1)
y = df['y_column']
# 上采样
oversampler = RandomOverSampler()
X_over, y_over = oversampler.fit_resample(X, y)
# 下采样
undersampler = RandomUnderSampler()
X_under, y_under = undersampler.fit_resample(X, y)
# 重新组合数据集
df_over = pd.concat([X_over, y_over], axis=1)
df_under = pd.concat([X_under, y_under], axis=1)
  1. 保存处理后的数据集
python 复制代码
# 保存清洗后的数据集
df_clean.to_csv('dataset_clean.csv', index=False)
# 保存采样后的数据集
df_over.to_csv('dataset_over.csv', index=False)
df_under.to_csv('dataset_under.csv', index=False)

在实际应用中,数据清洗和采样可能会更加复杂,需要根据具体的数据集和任务需求进行适当的调整。此外,对于文本数据,可能还需要进行分词、去除停用词、词干提取或词形还原等预处理步骤。

相关推荐
装不满的克莱因瓶几秒前
掌握3D CNN模型结构——从时空特征建模到视频理解与医学影像核心架构
人工智能·pytorch·python·深度学习·神经网络·3d·cnn
AI科技星几秒前
氢原子基态能级跃迁紫外频段光子频率计算
开发语言·网络·量子计算·agi·拓扑学
AINative软件工程1 分钟前
LLM 应用的 Schema 演进工程:structured output 字段改了,下游为什么炸了?
后端·python·架构
金融小师妹2 分钟前
基于AI事件驱动模型与验证溢价框架的市场分析:从预期交易到事实验证,原油与黄金面临关键定价重构
大数据·人工智能·算法·均值算法·线性回归
YOLO数据集集合3 分钟前
无人机航拍RGBT双模态行人检测数据集 | 可见光红外对齐 低空小目标检测 多模态计算机视觉基准数据
人工智能·深度学习·目标检测·计算机视觉·无人机
古希腊掌管代码的神THU4 分钟前
解析 MiniMax M3 多模态大模型的架构/源码?
人工智能·深度学习·自然语言处理·面试
卡卡罗特AI4 分钟前
Codex复刻小米MiMoCode官网,丝滑融入项目,只需要3步!保姆级教程!
人工智能·ai编程
sunneo6 分钟前
本周 AI 新动态精选(2026.06.08–06.14)
人工智能·aigc·ai编程·ai写作·ai-native
devilnumber7 分钟前
Java Lambda 表达式 200 条常见问题、坑点、易错点、规范清单
java·开发语言
人工智能AI技术7 分钟前
Loop Engineering彻底改写AI编程:不用手写提示词,让AI自主循环干活
人工智能