pandas数据分析(5)

pandas使用Numpy的np.nan代表缺失数据,显示为NaN。NaN是浮点数标准中地Not-a-Number。对于时间戳,则使用pd.NaT,而文本使用的是None。

首先构造一组数据:

使用None或者np.nan来表示缺失的值:

清理DataFrame时,如果要移除所有包含缺失数据的行:

如果只想移除所有的值都缺失的行,可以使用how参数:

要想获得一个反映对应位置上是否是NaN的布尔DataFrame或Series,可以使用isna方法:

还可以使用fillna来填补缺失的值,例如将score列中的NaN替换为平均值:

和缺失数据一样,重复数据也会对数据分析的可靠性造成负面影响。可以使用drop_duplicates方法清理重复的行。也可以提供列的子集作为参数:

执行drop_duplicates("country", "continent"),如果某些行的country和continent都一样,则保留第一行,删除后续和它一样的行。

is_unique用于确认某一列是否包含重复的数据,unique则可以获得去重后的值。

duplicated方法可以知道哪些行是重复的,它的返回值是一个布尔Series。keep参数默认值是first,意思是会保留第一次出现的数据,只将重复数据标记为True。将keep参数设置为False时,所有重复数据(包含第一次出现的数据)都会被标记为True。

相关推荐
HZZD_HZZD5 小时前
智慧能源平台:驱动能源革新的核心数字引擎
数据分析·能源
虎头金猫5 小时前
我的远程开发革命:从环境配置噩梦到一键共享的蜕变
网络·python·网络协议·tcp/ip·beautifulsoup·负载均衡·pandas
数据科学作家21 小时前
有序逻辑回归的概念、适用场景、数据要求,以及其在Stata中的操作命令及注意事项,Stata ologit回归结果怎么看?并附详细示例
数据分析·回归·逻辑回归·统计分析·stata·统计学·计量经济学
TwoAnts&DingJoy1 天前
数据分析-泊松分布
python·机器学习·数据挖掘·数据分析·统计学·泊松分布
悟乙己1 天前
PandasAI :使用 AI 优化你的分析工作流
人工智能·pandas·pandasai
YangYang9YangYan1 天前
金融分析师核心能力构建:从数据解读到战略洞察
大数据·信息可视化·金融·数据分析
qq_436962181 天前
奥威BI金蝶数据分析可视化方案:200+开箱即用报表驱动智能决策
信息可视化·数据挖掘·数据分析
Allen_LVyingbo2 天前
2025.10月报 Cherry Stuido 1.6.4、Ollama 0.12.5、Dify 1.9.1升级使用摘要
信息可视化·数据分析·健康医疗
派可数据BI可视化2 天前
商业智能BI与业务结构分析
大数据·数据仓库·信息可视化·数据分析·商业智能bi
闲人编程3 天前
从多个数据源(CSV, Excel, SQL)自动整合数据
python·mysql·数据分析·csv·存储·数据源·codecapsule