数据分析-数据预处理

数据分析-数据预处理

处理重复值

duplicated( )查找重复值

python 复制代码
import pandas as pd
a=pd.DataFrame(data=[['A',19],['B',19],['C',20],['A',19],['C',20]],
               columns=['name','age'])
print(a)
print('--------------------------')
a=a.duplicated()
print(a)

只判断全局不判断每个

any()

python 复制代码
import pandas as pd
a=pd.DataFrame(data=[['A',19],['B',19],['C',20],['A',19],['C',20]],
               columns=['name','age'])
print(a)
print('--------------------------')
a=any(a.duplicated())
print(a)

drop_duplicates( )删除重复值

参数inplace 是否在原数据上修改

python 复制代码
import pandas as pd
a=pd.DataFrame(data=[['A',19],['B',19],['C',20],['A',19],['C',20]],
               columns=['name','age'])
print(a)
print('--------------------------')
b=a.drop_duplicates(inplace=False)
a.drop_duplicates(inplace=True)
print(a)
print('--------------------------')
print(b)

处理缺失值

NaN表示缺失值

python 复制代码
import pandas as pd
a=pd.read_csv(r'text.csv')
print(a)

isnull( )判断所有位置元素是否缺失

python 复制代码
import pandas as pd
a=pd.read_csv(r'text.csv')
print(a.isnull())

any( )判断行列元素是否缺失

python 复制代码
import pandas as pd
a=pd.read_csv(r'text.csv')
print(a.isnull().any())
print(a.isnull().any(axis=1))

del( )dropna( )删除

python 复制代码
import pandas as pd
a=pd.read_csv(r'text.csv')
del a['name']
print(a)
python 复制代码
import pandas as pd
a=pd.read_csv(r'text.csv')
b=a.dropna(axis=0)
print(b)
c=a.dropna(axis=1)
print(c)

del( )删除指定列,dropna( )删除含有缺失值的列(行)

fillna( )缺失值填补

python 复制代码
import pandas as pda=pd.read_csv(r'text.csv')a=a.fillna('wu')print(a)

根据上(下)数据填充

pad / ffill: 按照上一行进行填充

backfill / bfill: 按照下一行进行填充

python 复制代码
import pandas as pda=pd.read_csv(r'text.csv')print(a)print('---------------------')b=a.fillna(method='pad')print(b)print('---------------------')c=a.fillna(method='bfill')print(c)

数值型数据填充

平均值mean()

每列的平均值填充

python 复制代码
import pandas as pda=pd.read_csv(r'text.csv')
print(a)
print('---------------------')
a=a.fillna(a.mean())
print(a)

中位数median( )

python 复制代码
import pandas as pd
a=pd.read_csv(r'text.csv')
print(a)print('---------------------')
a=a.fillna(a.median( ))
print(a)

字符型数据填充

众数mode( )

python 复制代码
import pandas as pd
a=pd.read_csv(r'text.csv')
print(a)
print('---------------------')
for i in a.columns:
    a[i] = a[i].fillna(a[i].mode()[0])
    print(a)

数据变换

map( )数据转换

python 复制代码
import pandas as pd
data={'sex':[1,0,1,1,0]}
a=pd.DataFrame(data)
a['sex-T']=a['sex'].map({1:'男',0:'女'})
print(a)

哑变量

python 复制代码
import pandas as pd
data={'sex':['男','女','男','女','保密']}
a=pd.DataFrame(data)
a=pd.get_dummies(a)
print(a)
相关推荐
编程界一哥9 小时前
星空游戏启动报错修复:2026最新保姆级步骤与原因解析
数据挖掘
YBAdvanceFu11 小时前
从零构建智能体:深入理解 ReAct Plan Solve Reflection 三大经典范式
人工智能·python·机器学习·数据挖掘·多智能体·智能体
亿坊电商14 小时前
亿坊外贸商城系统-支持B2C,B2B多模式,让企业做外贸电商更简单!
人工智能·数据挖掘·外贸商城
小王毕业啦14 小时前
2006-2023年 省级-建成区绿化覆盖率数据(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
程序员猫哥_14 小时前
AI建站工具零基础教程:10分钟从想法到上线一个专业网站
数据挖掘
编程界一哥15 小时前
幻兽帕鲁 msvcp140.dll 缺失 修复:2026年最新官方安全操作指南
数据挖掘
城数派16 小时前
2000-2025年我国省市县三级逐8天日间地表温度数据(Shp/Excel格式)
数据库·arcgis·信息可视化·数据分析·excel
数厘18 小时前
2.6MySQL库表操作指南(电商数据分析专用)
数据库·mysql·数据分析
云程笔记18 小时前
021.损失函数深度解读:YOLO的定位、置信度、分类损失计算
人工智能·yolo·机器学习·计算机视觉·分类·数据挖掘
龙腾AI白云19 小时前
多模大模型应用实战:智能问答系统开发
python·机器学习·数据分析·django·tornado