pandas数据分析(5)

pandas使用Numpy的np.nan代表缺失数据,显示为NaN。NaN是浮点数标准中地Not-a-Number。对于时间戳,则使用pd.NaT,而文本使用的是None。

首先构造一组数据:

使用None或者np.nan来表示缺失的值:

清理DataFrame时,如果要移除所有包含缺失数据的行:

如果只想移除所有的值都缺失的行,可以使用how参数:

要想获得一个反映对应位置上是否是NaN的布尔DataFrame或Series,可以使用isna方法:

还可以使用fillna来填补缺失的值,例如将score列中的NaN替换为平均值:

和缺失数据一样,重复数据也会对数据分析的可靠性造成负面影响。可以使用drop_duplicates方法清理重复的行。也可以提供列的子集作为参数:

执行drop_duplicates("country", "continent"),如果某些行的country和continent都一样,则保留第一行,删除后续和它一样的行。

is_unique用于确认某一列是否包含重复的数据,unique则可以获得去重后的值。

duplicated方法可以知道哪些行是重复的,它的返回值是一个布尔Series。keep参数默认值是first,意思是会保留第一次出现的数据,只将重复数据标记为True。将keep参数设置为False时,所有重复数据(包含第一次出现的数据)都会被标记为True。

相关推荐
yaodong5188 小时前
不会Python也能数据分析:Gemini 3.1 Pro解决办公问题的SQL自动生成
python·sql·数据分析
PaperData13 小时前
2000-2023年地级市数字基础设施评价指标体系
大数据·网络·数据库·人工智能·数据分析·经管
用户94161469336515 小时前
Python 实时监控 A 股行情并自动筛选强势股(REST + WebSocket 两种方案)
后端·数据分析
一晌小贪欢15 小时前
第1节:数据分析环境配置——Jupyter Notebook全攻略
jupyter·数据挖掘·数据分析·可视化·数据可视化
HQChart15 小时前
HQChart使用教程105-K线图,分时图如何对接AI进行数据分析
人工智能·数据挖掘·数据分析·hqchart·k线图·走势图
babe小鑫16 小时前
零经验转行学习数据分析的价值分析
学习·数据挖掘·数据分析
PaperData16 小时前
2000-2025年《中国县域统计年鉴》pdf+excel版(附赠面板数据)
数据库·人工智能·数据分析·pdf·经管
Ada大侦探17 小时前
新手小白学习数据分析01----数据分析师???& 数据分析思维学习
android·学习·数据分析
码界筑梦坊17 小时前
116-基于Flask的健身房会员锻炼数据可视化分析系统
python·信息可视化·数据分析·flask·毕业设计
观无18 小时前
Python读取excel并形成api接口案例
python·pandas·fastapi