pandas数据分析(5)

pandas使用Numpy的np.nan代表缺失数据,显示为NaN。NaN是浮点数标准中地Not-a-Number。对于时间戳,则使用pd.NaT,而文本使用的是None。

首先构造一组数据:

使用None或者np.nan来表示缺失的值:

清理DataFrame时,如果要移除所有包含缺失数据的行:

如果只想移除所有的值都缺失的行,可以使用how参数:

要想获得一个反映对应位置上是否是NaN的布尔DataFrame或Series,可以使用isna方法:

还可以使用fillna来填补缺失的值,例如将score列中的NaN替换为平均值:

和缺失数据一样,重复数据也会对数据分析的可靠性造成负面影响。可以使用drop_duplicates方法清理重复的行。也可以提供列的子集作为参数:

执行drop_duplicates("country", "continent"),如果某些行的country和continent都一样,则保留第一行,删除后续和它一样的行。

is_unique用于确认某一列是否包含重复的数据,unique则可以获得去重后的值。

duplicated方法可以知道哪些行是重复的,它的返回值是一个布尔Series。keep参数默认值是first,意思是会保留第一次出现的数据,只将重复数据标记为True。将keep参数设置为False时,所有重复数据(包含第一次出现的数据)都会被标记为True。

相关推荐
城数派1 天前
2005-2025年 我国乡镇级的逐日地表气压数据(Shp/Excel格式)
数据分析
放下华子我只抽RuiKe51 天前
AI大模型开发-实战精讲:从零构建 RFM 会员价值模型(进阶挑战版)
人工智能·深度学习·算法·机器学习·数据挖掘·数据分析·聚类
江不清丶1 天前
Text-to-SQL实战:从自然语言到数据库查询的智能数据分析Agent设计
数据库·sql·ai·数据分析
happyboy19862111 天前
2026大专财富管理可以转数据分析吗?
数据库·数据挖掘·数据分析
问组生物1 天前
测序公司给的分析报告中为什么没有Ensembl GTF注释版本?
数据分析·数据可视化·生信分析·科研绘图·测序·基因注释·rna-seq
V1ncent Chen1 天前
从零学SQL 03 Windows环境安装MySQL(图文版)
数据库·windows·sql·mysql·数据分析
全栈开发圈2 天前
新书速览|R语言医学数据分析与可视化
开发语言·数据分析·r语言
电商API_180079052472 天前
1688 商品详情 API 深度对接:字段说明、异常处理与性能优化
大数据·服务器·爬虫·数据挖掘·数据分析
YangYang9YangYan2 天前
2026大专财富管理学数据分析技术价值分析
数据挖掘·数据分析
babe小鑫2 天前
2026大专国际经济与贸易学数据分析的技术应用与价值
数据挖掘·数据分析