pandas数据分析(5)

pandas使用Numpy的np.nan代表缺失数据,显示为NaN。NaN是浮点数标准中地Not-a-Number。对于时间戳,则使用pd.NaT,而文本使用的是None。

首先构造一组数据:

使用None或者np.nan来表示缺失的值:

清理DataFrame时,如果要移除所有包含缺失数据的行:

如果只想移除所有的值都缺失的行,可以使用how参数:

要想获得一个反映对应位置上是否是NaN的布尔DataFrame或Series,可以使用isna方法:

还可以使用fillna来填补缺失的值,例如将score列中的NaN替换为平均值:

和缺失数据一样,重复数据也会对数据分析的可靠性造成负面影响。可以使用drop_duplicates方法清理重复的行。也可以提供列的子集作为参数:

执行drop_duplicates("country", "continent"),如果某些行的country和continent都一样,则保留第一行,删除后续和它一样的行。

is_unique用于确认某一列是否包含重复的数据,unique则可以获得去重后的值。

duplicated方法可以知道哪些行是重复的,它的返回值是一个布尔Series。keep参数默认值是first,意思是会保留第一次出现的数据,只将重复数据标记为True。将keep参数设置为False时,所有重复数据(包含第一次出现的数据)都会被标记为True。

相关推荐
YangYang9YangYan3 小时前
2026高职大数据管理与应用专业学数据分析的价值分析
数据挖掘·数据分析
一只爱学习的小鱼儿8 小时前
在QT中使用饼状图进行数据分析
开发语言·qt·数据分析
反向跟单策略8 小时前
期货反向跟单-贵金属牛市中的反向跟单密码
大数据·人工智能·学习·数据分析·区块链
CCPC不拿奖不改名9 小时前
数据处理与分析:pandas基础+面试习题
开发语言·数据结构·python·面试·职场和发展·pandas
琛説11 小时前
【时间序列】MSSP股票数据集(含市场情绪、上证指数等指标)
深度学习·数据分析
DX_水位流量监测11 小时前
阵列雷达波测流监测技术:原理、参数与应用实践
大数据·网络·人工智能·信息可视化·数据分析
、BeYourself11 小时前
基于 K-means 聚类的天天基金数据分析、挖掘、可视化
数据分析·kmeans·聚类
2501_9449347312 小时前
中专财务人员转型数据分析的可行性分析
数据挖掘·数据分析
4***175414 小时前
Python酷库之旅-第三方库Pandas(051)
开发语言·python·pandas
2501_9449347314 小时前
高职学历转行电商运营的数据分析学习路径
学习·数据挖掘·数据分析