pandas数据分析(5)

pandas使用Numpy的np.nan代表缺失数据,显示为NaN。NaN是浮点数标准中地Not-a-Number。对于时间戳,则使用pd.NaT,而文本使用的是None。

首先构造一组数据:

使用None或者np.nan来表示缺失的值:

清理DataFrame时,如果要移除所有包含缺失数据的行:

如果只想移除所有的值都缺失的行,可以使用how参数:

要想获得一个反映对应位置上是否是NaN的布尔DataFrame或Series,可以使用isna方法:

还可以使用fillna来填补缺失的值,例如将score列中的NaN替换为平均值:

和缺失数据一样,重复数据也会对数据分析的可靠性造成负面影响。可以使用drop_duplicates方法清理重复的行。也可以提供列的子集作为参数:

执行drop_duplicates("country", "continent"),如果某些行的country和continent都一样,则保留第一行,删除后续和它一样的行。

is_unique用于确认某一列是否包含重复的数据,unique则可以获得去重后的值。

duplicated方法可以知道哪些行是重复的,它的返回值是一个布尔Series。keep参数默认值是first,意思是会保留第一次出现的数据,只将重复数据标记为True。将keep参数设置为False时,所有重复数据(包含第一次出现的数据)都会被标记为True。

相关推荐
神奇夜光杯4 分钟前
Python酷库之旅-第三方库Pandas(003)
开发语言·ide·python·pandas·基础知识·学习和成长·标准库及第三方库
CS数模3 小时前
2024 年 亚太赛 APMCM (B题)中文赛道国际大学生数学建模挑战赛 |洪水灾害数据分析 | 数学建模完整代码+建模过程全解全析
数学建模·数据挖掘·数据分析
PhyliciaFelicia3 小时前
结合ArcGIS+SWAT模型+Century模型:流域生态系统水-碳-氮耦合过程模拟
arcgis·数据分析
statistican_ABin6 小时前
R语言数据分析案例40-华安中证基金多元线性回归和分析预测
数据分析·r语言·线性回归
极客代码6 小时前
深入剖析Python中的Pandas库:通过实战案例全方位解读数据清洗与预处理艺术
开发语言·人工智能·python·pandas
大数据小朋友6 小时前
Pand函数详解进阶:案例解析(第26天)
大数据·开发语言·数据仓库·python·pandas
阡之尘埃16 小时前
Python数据分析案例47——笔记本电脑价格影响因素分析
python·机器学习·数据挖掘·数据分析·pandas
financeppl17 小时前
探索金融数据API:现代投资的关键工具
python·金融·数据分析
Kerry_618 小时前
2024年第十四届亚太地区大学生数学建模竞赛(中文赛项)B题洪水灾害的数据分析与预测论文和代码分析
人工智能·python·机器学习·数学建模·数据挖掘·数据分析
智能建造研究生20 小时前
Python28-7.1 降维算法之PCA主成分分析
算法·信息可视化·数据分析