数据分析基础之《pandas(6)—高级处理》

一、缺失值处理

1、如何处理nan

两种思路:

(1)如果样本量很大,可以删除含有缺失值的样本

(2)如果要珍惜每一个样本,可以替换/插补(计算平均值或中位数)

2、判断数据是否为nan

(1)pd.isnull(df)

返回一堆布尔值,False不是缺失值,True是缺失值

(2)pd.notnull(df)

返回一堆布尔值,True不是缺失值,False是缺失值

3、缺失值处理方式

存在缺失值nan,并且是np.nan

(1)dropna(axis='rows', inplace=False)

删除存在缺失值

默认不替换原数据,返回新数据,inplace=True修改原数据

(2)fillna(value, inplace=True)

替换缺失值

说明:

value:替换成的值

inplace:

True:会修改原数据

False:不替换修改原数据,生成新的对象

(3)缺失值不是nan,是其他标记的

后面再说

二、缺失值处理实例

1、电影数据文件获取

python 复制代码
import pandas as pd

movie = pd.read_csv("./IMDB-Movie-Data.csv")

movie

import numpy as np

# 判断是否存在缺失值
np.any(pd.isnull(movie))

np.all(pd.notnull(movie))

# 用dataframe的any方法
pd.isnull(movie).any() # 返回每一个字段是否有缺失值

# 用dataframe的all方法
pd.notnull(movie).all()

# 用dataframe的isnull方法
movie.isnull().sum()

2、删除含有缺失值的样本

python 复制代码
# 缺失值处理
# 删除含有缺失值的样本
data1 = movie.dropna()

data1.isnull().sum()
相关推荐
源码宝1 小时前
【智慧工地源码】智慧工地云平台系统,涵盖安全、质量、环境、人员和设备五大管理模块,实现实时监控、智能预警和数据分析。
java·大数据·spring cloud·数据分析·源码·智慧工地·云平台
SelectDB2 小时前
Apache Doris 4.0 AI 能力揭秘(一):AI 函数之 LLM 函数介绍
数据库·人工智能·数据分析
数据超市2 小时前
香港数据合集:建筑物、手机基站、POI、职住数据、用地类型
大数据·人工智能·智能手机·数据挖掘·数据分析
SelectDB3 小时前
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
大数据·数据分析·开源
用户199701080189 小时前
抖音商品列表API技术文档
大数据·数据挖掘·数据分析
木木子99999 小时前
第5问 对于数据分析领域,统计学要学到什么程度?
数据挖掘·数据分析
淡酒交魂1 天前
「Flink」业务搭建方法总结
大数据·数据挖掘·数据分析
TDengine (老段)1 天前
TDengine IDMP 高级功能(4. 元素引用)
大数据·数据库·人工智能·物联网·数据分析·时序数据库·tdengine
计算机毕设定制辅导-无忧学长2 天前
Grafana 与 InfluxDB 可视化深度集成(二)
信息可视化·数据分析·grafana
鹏多多.2 天前
flutter-使用device_info_plus获取手机设备信息完整指南
android·前端·flutter·ios·数据分析·前端框架