数据分析基础之《pandas(6)—高级处理》

一、缺失值处理

1、如何处理nan

两种思路:

(1)如果样本量很大,可以删除含有缺失值的样本

(2)如果要珍惜每一个样本,可以替换/插补(计算平均值或中位数)

2、判断数据是否为nan

(1)pd.isnull(df)

返回一堆布尔值,False不是缺失值,True是缺失值

(2)pd.notnull(df)

返回一堆布尔值,True不是缺失值,False是缺失值

3、缺失值处理方式

存在缺失值nan,并且是np.nan

(1)dropna(axis='rows', inplace=False)

删除存在缺失值

默认不替换原数据,返回新数据,inplace=True修改原数据

(2)fillna(value, inplace=True)

替换缺失值

说明:

value:替换成的值

inplace:

True:会修改原数据

False:不替换修改原数据,生成新的对象

(3)缺失值不是nan,是其他标记的

后面再说

二、缺失值处理实例

1、电影数据文件获取

python 复制代码
import pandas as pd

movie = pd.read_csv("./IMDB-Movie-Data.csv")

movie

import numpy as np

# 判断是否存在缺失值
np.any(pd.isnull(movie))

np.all(pd.notnull(movie))

# 用dataframe的any方法
pd.isnull(movie).any() # 返回每一个字段是否有缺失值

# 用dataframe的all方法
pd.notnull(movie).all()

# 用dataframe的isnull方法
movie.isnull().sum()

2、删除含有缺失值的样本

python 复制代码
# 缺失值处理
# 删除含有缺失值的样本
data1 = movie.dropna()

data1.isnull().sum()
相关推荐
用户Taobaoapi20142 小时前
母婴用品社媒种草效果量化:淘宝详情API+私域转化追踪案例
大数据·数据挖掘·数据分析
key067 小时前
电子水母函数解析
数据分析
Brduino脑机接口技术答疑9 小时前
脑机新手指南(二十一)基于 Brainstorm 的 MEG/EEG 数据分析(上篇)
数据挖掘·数据分析
镜舟科技9 小时前
StarRocks × Tableau 连接器完整使用指南 | 高效数据分析从连接开始
starrocks·数据分析·数据可视化·tableau·连接器·交互式分析·mpp 数据库
好开心啊没烦恼10 小时前
Python 数据分析:DataFrame,生成,用字典创建 DataFrame ,键值对数量不一样怎么办?
开发语言·python·数据挖掘·数据分析
永洪科技20 小时前
永洪科技荣获商业智能品牌影响力奖,全力打造”AI+决策”引擎
大数据·人工智能·科技·数据分析·数据可视化·bi
Triv20251 天前
ECU开发工具链1.10版:更强大的测量、校准与数据分析体验.
microsoft·数据分析·汽车电子开发·校准流程自动化·高速信号采集·测试台架集成·实时数据监控
好开心啊没烦恼1 天前
Python 数据分析:numpy,抽提,整数数组索引与基本索引扩展(元组传参)。听故事学知识点怎么这么容易?
开发语言·人工智能·python·数据挖掘·数据分析·numpy·pandas
陈敬雷-充电了么-CEO兼CTO1 天前
推荐算法系统系列>推荐数据仓库集市的ETL数据处理
大数据·数据库·数据仓库·数据挖掘·数据分析·etl·推荐算法
马特说1 天前
React金融数据分析应用性能优化实战:借助AI辅助解决18万数据量栈溢出Bug
react.js·金融·数据分析