【Educoder数据挖掘实训】冗余值的处理

【Educoder数据挖掘实训】冗余值的处理

开挖

这个题就比较容易了,实训里的要求写的也比较清楚。

主要是讲解了 d r o p _ d u p l i c a t e s drop\_duplicates drop_duplicates函数,该函数补全如下:

python 复制代码
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

其中, s u b s e t subset subset是固定那些行, k e e p keep keep是针对冗余信息的处理方式, i n p l a c e inplace inplace是指是否对表格进行直接修改, i g n o r e _ i n d e x ignore\_index ignore_index表示是否重置索引。

题目还介绍了 r e s e t _ i n d e x reset\_index reset_index函数,只需要按照题目要求完成即可。

代码如下:

python 复制代码
import pandas as pd

data = pd.read_csv("src/death.csv", index_col='Unnamed: 0')

data = data.dropna(axis=1, thresh=data.shape[0] * 0.2)
data = data.dropna(axis=0, thresh=data.shape[1] * 0.2)

a = pd.isna(data).sum()
cols = [x for i, x in enumerate(a.index) if a[i] > 0]

mode_list = 'FIPS Admin2'
for i in cols:
    if mode_list.find(i) != -1: 
        data[i] = data[i].fillna(data[i].mode().iloc[0])
    else:
        data[i] = data[i].fillna(data.mean()[i])

########## Begin ##########
df = pd.DataFrame(data = data)
#去除所有重复项
df = df.drop_duplicates(keep = False)
#重置索引,从0重新开始
data = df.reset_index(drop = True)

########## End ##########

print(data)

做一些补充

如果前几个实训有过尝试就会发现, d a t a data data本身就是一个 D a t a F r a m e DataFrame DataFrame类型的数据,所以我们根本不需要强制转换类型,也就是

python 复制代码
df = pd.DataFrame(data = data)

这一步是完全没用的,直接对 d a t a data data操作即可。

代码更改为:

python 复制代码
import pandas as pd

data = pd.read_csv("src/death.csv", index_col='Unnamed: 0')

data = data.dropna(axis=1, thresh=data.shape[0] * 0.2)
data = data.dropna(axis=0, thresh=data.shape[1] * 0.2)

a = pd.isna(data).sum()
cols = [x for i, x in enumerate(a.index) if a[i] > 0]

mode_list = 'FIPS Admin2'
for i in cols:
    if mode_list.find(i) != -1: 
        data[i] = data[i].fillna(data[i].mode().iloc[0])
    else:
        data[i] = data[i].fillna(data.mean()[i])

########## Begin ##########
#去除所有重复项
data = data.drop_duplicates(keep = False)
#重置索引,从0重新开始
data = data.reset_index(drop = True)

########## End ##########

print(data)

但是上述的 d r o p drop drop函数里有一个参数叫 i g n o r e _ i n d e x ignore\_index ignore_index,难道不可以直接对这个参数进行操作进而不需要 r e s e t _ i n d e x reset\_index reset_index了吗?

不可以,因为 E d u c o d e r Educoder Educoder上给出的 P a n d a s Pandas Pandas版本过于老旧,当时的 d r o p _ d u p l i c a t e s drop\_duplicates drop_duplicates函数还只有三个参数,并不能自行重置索引。

而在 r e s e t i n d e x reset_index resetindex函数中的 d r o p drop drop,则是是否保留原索引列。如果直接调用这个函数而不置 d r o p drop drop为 T r u e True True的话, d r o p drop drop默认为 F a l s e False False会单独将原索引列保留为一个普通列。

相关推荐
云卷风舒3 分钟前
Fedora 40 开机启动失败,不重装系统,如何恢复成功 ?(附带恢复过程)
人工智能·claude·fedora
豆芽8194 分钟前
决策树(DecisionTree)
python·决策树·机器学习·pyqt·sklearn
努力犯错玩AI6 分钟前
Llama 4 来了!AI 快站助你一键极速下载,抢先体验 MoE + 多模态 + 超长上下文
人工智能·后端·python
果冻人工智能9 分钟前
所以,你上传了你的大脑……然后呢?
人工智能
eqwaak011 分钟前
DrissionPage高级技巧:从爬虫到自动化测试
人工智能·爬虫·python·语言模型·自然语言处理·drissionpage
matlabgoodboy12 分钟前
生信分析服务MR孟德尔随机化单细胞测序转录组数据分析网络药理学
数据挖掘·数据分析·mr
我感觉。21 分钟前
【深度学习】通过colab将本地的数据集上传到drive
人工智能·深度学习·colab·drive·数据集保存
AI是这个时代的魔法22 分钟前
$R^n$超平面约束下的向量列
人工智能·机器学习·平面
创新技术阁32 分钟前
FastAPI核心技巧大公开:深入探索路由与视图的奥秘
后端·python
Blueshy33 分钟前
【python基础】weakref的初次遇见
python