数据分析基础之《pandas(6)—高级处理》

一、缺失值处理

1、如何处理nan

两种思路:

(1)如果样本量很大,可以删除含有缺失值的样本

(2)如果要珍惜每一个样本,可以替换/插补(计算平均值或中位数)

2、判断数据是否为nan

(1)pd.isnull(df)

返回一堆布尔值,False不是缺失值,True是缺失值

(2)pd.notnull(df)

返回一堆布尔值,True不是缺失值,False是缺失值

3、缺失值处理方式

存在缺失值nan,并且是np.nan

(1)dropna(axis='rows', inplace=False)

删除存在缺失值

默认不替换原数据,返回新数据,inplace=True修改原数据

(2)fillna(value, inplace=True)

替换缺失值

说明:

value:替换成的值

inplace:

True:会修改原数据

False:不替换修改原数据,生成新的对象

(3)缺失值不是nan,是其他标记的

后面再说

二、缺失值处理实例

1、电影数据文件获取

python 复制代码
import pandas as pd

movie = pd.read_csv("./IMDB-Movie-Data.csv")

movie

import numpy as np

# 判断是否存在缺失值
np.any(pd.isnull(movie))

np.all(pd.notnull(movie))

# 用dataframe的any方法
pd.isnull(movie).any() # 返回每一个字段是否有缺失值

# 用dataframe的all方法
pd.notnull(movie).all()

# 用dataframe的isnull方法
movie.isnull().sum()

2、删除含有缺失值的样本

python 复制代码
# 缺失值处理
# 删除含有缺失值的样本
data1 = movie.dropna()

data1.isnull().sum()
相关推荐
仟濹20 分钟前
「数据分析 - Pandas 函数」【数据分析全栈攻略:爬虫+处理+可视化+报告】
爬虫·数据分析·pandas
viperrrrrrrrrr716 小时前
大数据学习(128)-数据分析实例
大数据·学习·数据分析
小王毕业啦18 小时前
2022年 国内税务年鉴PDF电子版Excel
大数据·人工智能·数据挖掘·数据分析·数据统计·年鉴·社科数据
坚持就完事了18 小时前
平滑技术(数据处理,持续更新...)
信息可视化·数据挖掘·数据分析
SelectDB20 小时前
Apache Doris + MCP:Agent 时代的实时数据分析底座
大数据·数据分析·敏捷开发
XYu1230121 小时前
豆瓣图书评论数据分析与可视化
python·数据挖掘·数据分析
做科研的周师兄1 天前
中国区域30m/15天植被覆盖度数据集(2010-2022)
大数据·javascript·算法·性能优化·数据分析
数模竞赛Paid answer2 天前
2024年认证杯SPSSPRO杯数学建模D题(第二阶段)AI绘画带来的挑战解题全过程文档及程序
数学建模·数据分析·认证杯
数模竞赛Paid answer2 天前
2025年MathorCup数学建模D题短途运输货量预测及车辆调度问题解题文档与程序
数学建模·数据分析·mathorcup
weixin_307779132 天前
Neo4j 数据可视化与洞察获取:原理、技术与实践指南
信息可视化·架构·数据分析·neo4j·etl