数据分析基础之《pandas(6)—高级处理》

一、缺失值处理

1、如何处理nan

两种思路:

(1)如果样本量很大,可以删除含有缺失值的样本

(2)如果要珍惜每一个样本,可以替换/插补(计算平均值或中位数)

2、判断数据是否为nan

(1)pd.isnull(df)

返回一堆布尔值,False不是缺失值,True是缺失值

(2)pd.notnull(df)

返回一堆布尔值,True不是缺失值,False是缺失值

3、缺失值处理方式

存在缺失值nan,并且是np.nan

(1)dropna(axis='rows', inplace=False)

删除存在缺失值

默认不替换原数据,返回新数据,inplace=True修改原数据

(2)fillna(value, inplace=True)

替换缺失值

说明:

value:替换成的值

inplace:

True:会修改原数据

False:不替换修改原数据,生成新的对象

(3)缺失值不是nan,是其他标记的

后面再说

二、缺失值处理实例

1、电影数据文件获取

python 复制代码
import pandas as pd

movie = pd.read_csv("./IMDB-Movie-Data.csv")

movie

import numpy as np

# 判断是否存在缺失值
np.any(pd.isnull(movie))

np.all(pd.notnull(movie))

# 用dataframe的any方法
pd.isnull(movie).any() # 返回每一个字段是否有缺失值

# 用dataframe的all方法
pd.notnull(movie).all()

# 用dataframe的isnull方法
movie.isnull().sum()

2、删除含有缺失值的样本

python 复制代码
# 缺失值处理
# 删除含有缺失值的样本
data1 = movie.dropna()

data1.isnull().sum()
相关推荐
g***B7389 小时前
Python数据分析案例
开发语言·python·数据分析
秋邱14 小时前
驾驭数据洪流:Python如何赋能您的数据思维与决策飞跃
jvm·算法·云原生·oracle·eureka·数据分析·推荐算法
杜斯{Data}15 小时前
Excel 高阶实战:从脏数据到可视化报告的完整闭环
大数据·数据分析·excel
2***574217 小时前
Java数据分析实战
java·python·数据分析
paperxie_xiexuo17 小时前
从研究问题到分析初稿:深度解析PaperXie AI科研工具中数据分析模块在学术写作场景下的辅助逻辑与技术实现路径
人工智能·数据挖掘·数据分析
IT·小灰灰19 小时前
基于Python的机器学习/数据分析环境搭建完全指南
开发语言·人工智能·python·算法·机器学习·数据分析
U***e6321 小时前
JavaScript数据分析
开发语言·javascript·数据分析
Microsoft Word21 小时前
商务数据分析与可视化
数据挖掘·数据分析
Q26433650231 天前
【有源码】spark与hadoop-情感挖掘+画像建模的携程酒店评价数据分析可视化系统-基于机器学习的携程酒店评价情感分析与竞争态势可视化
大数据·hadoop·python·机器学习·数据分析·spark·毕业设计
咚咚王者1 天前
人工智能之数据分析 numpy:第十章 副本视图
人工智能·数据分析·numpy