【Educoder数据挖掘实训】冗余值的处理

【Educoder数据挖掘实训】冗余值的处理

开挖

这个题就比较容易了,实训里的要求写的也比较清楚。

主要是讲解了 d r o p _ d u p l i c a t e s drop\_duplicates drop_duplicates函数,该函数补全如下:

python 复制代码
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

其中, s u b s e t subset subset是固定那些行, k e e p keep keep是针对冗余信息的处理方式, i n p l a c e inplace inplace是指是否对表格进行直接修改, i g n o r e _ i n d e x ignore\_index ignore_index表示是否重置索引。

题目还介绍了 r e s e t _ i n d e x reset\_index reset_index函数,只需要按照题目要求完成即可。

代码如下:

python 复制代码
import pandas as pd

data = pd.read_csv("src/death.csv", index_col='Unnamed: 0')

data = data.dropna(axis=1, thresh=data.shape[0] * 0.2)
data = data.dropna(axis=0, thresh=data.shape[1] * 0.2)

a = pd.isna(data).sum()
cols = [x for i, x in enumerate(a.index) if a[i] > 0]

mode_list = 'FIPS Admin2'
for i in cols:
    if mode_list.find(i) != -1: 
        data[i] = data[i].fillna(data[i].mode().iloc[0])
    else:
        data[i] = data[i].fillna(data.mean()[i])

########## Begin ##########
df = pd.DataFrame(data = data)
#去除所有重复项
df = df.drop_duplicates(keep = False)
#重置索引,从0重新开始
data = df.reset_index(drop = True)

########## End ##########

print(data)

做一些补充

如果前几个实训有过尝试就会发现, d a t a data data本身就是一个 D a t a F r a m e DataFrame DataFrame类型的数据,所以我们根本不需要强制转换类型,也就是

python 复制代码
df = pd.DataFrame(data = data)

这一步是完全没用的,直接对 d a t a data data操作即可。

代码更改为:

python 复制代码
import pandas as pd

data = pd.read_csv("src/death.csv", index_col='Unnamed: 0')

data = data.dropna(axis=1, thresh=data.shape[0] * 0.2)
data = data.dropna(axis=0, thresh=data.shape[1] * 0.2)

a = pd.isna(data).sum()
cols = [x for i, x in enumerate(a.index) if a[i] > 0]

mode_list = 'FIPS Admin2'
for i in cols:
    if mode_list.find(i) != -1: 
        data[i] = data[i].fillna(data[i].mode().iloc[0])
    else:
        data[i] = data[i].fillna(data.mean()[i])

########## Begin ##########
#去除所有重复项
data = data.drop_duplicates(keep = False)
#重置索引,从0重新开始
data = data.reset_index(drop = True)

########## End ##########

print(data)

但是上述的 d r o p drop drop函数里有一个参数叫 i g n o r e _ i n d e x ignore\_index ignore_index,难道不可以直接对这个参数进行操作进而不需要 r e s e t _ i n d e x reset\_index reset_index了吗?

不可以,因为 E d u c o d e r Educoder Educoder上给出的 P a n d a s Pandas Pandas版本过于老旧,当时的 d r o p _ d u p l i c a t e s drop\_duplicates drop_duplicates函数还只有三个参数,并不能自行重置索引。

而在 r e s e t i n d e x reset_index resetindex函数中的 d r o p drop drop,则是是否保留原索引列。如果直接调用这个函数而不置 d r o p drop drop为 T r u e True True的话, d r o p drop drop默认为 F a l s e False False会单独将原索引列保留为一个普通列。

相关推荐
女神下凡26 分钟前
office系列软件 激活破解(office 2019, 2021, 2024)
人工智能·microsoft
2503_9317124830 分钟前
京东裸眼3D展示——30分钟建模绒感褶皱光泽都能还原
人工智能
星马梦缘31 分钟前
机器学习与模式识别 第八章 MAP与偏方差 考点压缩
人工智能·机器学习·map·岭回归·mle·双重下降
一楼的猫37 分钟前
AI写作合规技术方案:平台检测机制分析与规避策略
人工智能·学习·机器学习·ai写作
阿拉斯攀登1 小时前
Agent 核心架构:思考-行动-观察循环(ReAct)
人工智能·ai·agent·react
geovindu1 小时前
python: Functional Options Pattern
开发语言·后端·python·设计模式·惯用法模式·函数式选项模式
HyperAI超神经1 小时前
活动预告|智源/TileRT/腾讯/华为/智元创新同台,共探 AI 编译的多层级协同优化
人工智能·ai 编译器·腾讯·具身智能·矩阵乘法·算子优化·华为昇腾
在水一缸1 小时前
GLM 5.2 发布:当长上下文与智能体走向深度融合
人工智能·大模型·智能体·智谱ai·长上下文·glm-5.2
小妖同学学AI1 小时前
AI编程 AI Ping+Cline搭建自己的编程助手!
人工智能·ai编程