【Educoder数据挖掘实训】冗余值的处理

【Educoder数据挖掘实训】冗余值的处理

开挖

这个题就比较容易了,实训里的要求写的也比较清楚。

主要是讲解了 d r o p _ d u p l i c a t e s drop\_duplicates drop_duplicates函数,该函数补全如下:

python 复制代码
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

其中, s u b s e t subset subset是固定那些行, k e e p keep keep是针对冗余信息的处理方式, i n p l a c e inplace inplace是指是否对表格进行直接修改, i g n o r e _ i n d e x ignore\_index ignore_index表示是否重置索引。

题目还介绍了 r e s e t _ i n d e x reset\_index reset_index函数,只需要按照题目要求完成即可。

代码如下:

python 复制代码
import pandas as pd

data = pd.read_csv("src/death.csv", index_col='Unnamed: 0')

data = data.dropna(axis=1, thresh=data.shape[0] * 0.2)
data = data.dropna(axis=0, thresh=data.shape[1] * 0.2)

a = pd.isna(data).sum()
cols = [x for i, x in enumerate(a.index) if a[i] > 0]

mode_list = 'FIPS Admin2'
for i in cols:
    if mode_list.find(i) != -1: 
        data[i] = data[i].fillna(data[i].mode().iloc[0])
    else:
        data[i] = data[i].fillna(data.mean()[i])

########## Begin ##########
df = pd.DataFrame(data = data)
#去除所有重复项
df = df.drop_duplicates(keep = False)
#重置索引,从0重新开始
data = df.reset_index(drop = True)

########## End ##########

print(data)

做一些补充

如果前几个实训有过尝试就会发现, d a t a data data本身就是一个 D a t a F r a m e DataFrame DataFrame类型的数据,所以我们根本不需要强制转换类型,也就是

python 复制代码
df = pd.DataFrame(data = data)

这一步是完全没用的,直接对 d a t a data data操作即可。

代码更改为:

python 复制代码
import pandas as pd

data = pd.read_csv("src/death.csv", index_col='Unnamed: 0')

data = data.dropna(axis=1, thresh=data.shape[0] * 0.2)
data = data.dropna(axis=0, thresh=data.shape[1] * 0.2)

a = pd.isna(data).sum()
cols = [x for i, x in enumerate(a.index) if a[i] > 0]

mode_list = 'FIPS Admin2'
for i in cols:
    if mode_list.find(i) != -1: 
        data[i] = data[i].fillna(data[i].mode().iloc[0])
    else:
        data[i] = data[i].fillna(data.mean()[i])

########## Begin ##########
#去除所有重复项
data = data.drop_duplicates(keep = False)
#重置索引,从0重新开始
data = data.reset_index(drop = True)

########## End ##########

print(data)

但是上述的 d r o p drop drop函数里有一个参数叫 i g n o r e _ i n d e x ignore\_index ignore_index,难道不可以直接对这个参数进行操作进而不需要 r e s e t _ i n d e x reset\_index reset_index了吗?

不可以,因为 E d u c o d e r Educoder Educoder上给出的 P a n d a s Pandas Pandas版本过于老旧,当时的 d r o p _ d u p l i c a t e s drop\_duplicates drop_duplicates函数还只有三个参数,并不能自行重置索引。

而在 r e s e t i n d e x reset_index resetindex函数中的 d r o p drop drop,则是是否保留原索引列。如果直接调用这个函数而不置 d r o p drop drop为 T r u e True True的话, d r o p drop drop默认为 F a l s e False False会单独将原索引列保留为一个普通列。

相关推荐
久违 °16 小时前
【AI-Agent】TagMatrix 数据标注工具开发
人工智能·数据分析·go·agent·数据隐私
NiceCloud喜云16 小时前
Opus 4.8 的 Effort Control 怎么选:Low 到 Max 五档策略
android·java·大数据·前端·c++·python·spring
AI360labs_atyun17 小时前
腾讯推出电子牛马Marvis,好用吗?
人工智能·科技·ai
Dfreedom.17 小时前
Windows、虚拟机、开发板组网通信原理及调试通联步骤
人工智能·windows·部署·边缘计算·开发板·模型加速
3DVisionary17 小时前
蓝光三维扫描:医疗制造的精度焦虑怎么解
人工智能·算法·制造·蓝光三维扫描·医疗制造·三维检测·义齿检测
Are_You_Okkk_17 小时前
基于MonkeyCode解析AI研发新模式,根治开发低效痛点
大数据·人工智能·开源·ai编程
AI玫瑰助手17 小时前
Python函数:默认参数的定义与注意事项
开发语言·python·信息可视化
好评笔记17 小时前
机器学习面试八股——常用损失函数
人工智能·深度学习·算法·机器学习·校招
weixin_4684668517 小时前
全局与局部注意力机制新手实战指南
人工智能·python·深度学习·算法·自然语言处理·transformer·注意力机制
weixin_4684668517 小时前
工业相机成像原理新手入门指南
人工智能·自动化·机器视觉·工业相机·光学·光学系统·成像原理