Pandas数据清洗_Python数据分析与可视化

Pandas数据清洗

在处理数据的时候,需要对数据进行一个清洗过程。清洗操作包括:空白行的删除、数据完整性检验、数据填充、插值等内容。

下面是数据清洗过程中使用的具体方法

删除缺失值

DataFrame.dropna 方法用于删除含有缺失值的行或列,关键参数:axishow

axis

表示轴向,0 为行,1 为列,默认 0。

how

表示删除形式,how = 'any' 表示只要有缺失值就删除;how='all' 表示全为缺失值才删除。

检测缺失值

DataFrame.isnull() 识别缺失值,返回包含TrueFalse的 DataFrame。
DataFrame.notnull() 方法识别非缺失值,返回包含TrueFalse的 DataFrame。

上述两方法结合sum函数可用于检测数据序列中缺失值的分布情况。

填充缺失值

DataFrame.fillna 方法能用指定值替换缺失值。关键参数:valuemethodaxis

value

表示指定的填充值。

method
method = 'bfill'后向填充,用后面的非缺失值填充;
method = 'ffill'前向填充,用前面的非缺失值填充。

axis

表示操作轴向,默认1(列)。

拉格朗日插值

csharp 复制代码
from scipy.interpolate import lagrange
formula = lagrange(x,y)#formula是通过lagrange方法生成的公式,x和y为数据序列
ins_y = formula(ins_x)#ins_x为缺失值所在位置,ins_y为插值结果。

线性插值

csharp 复制代码
from scipy.interpolate import interp1d#1是数字一
formula = interp1d(x,y,kind = 'linear')#formula是通过linear方法生成的公式,x和y为数据序列
ins_y = formula(ins_x)#ins_x为缺失值所在位置,ins_y为插值结果。
相关推荐
databook9 小时前
Manim实现闪光轨迹特效
后端·python·动效
Juchecar10 小时前
解惑:NumPy 中 ndarray.ndim 到底是什么?
python
用户83562907805111 小时前
Python 删除 Excel 工作表中的空白行列
后端·python
Json_11 小时前
使用python-fastApi框架开发一个学校宿舍管理系统-前后端分离项目
后端·python·fastapi
RestCloud11 小时前
数据传输中的三大难题,ETL 平台是如何解决的?
数据分析·api
数据智能老司机17 小时前
精通 Python 设计模式——分布式系统模式
python·设计模式·架构
数据智能老司机18 小时前
精通 Python 设计模式——并发与异步模式
python·设计模式·编程语言
数据智能老司机18 小时前
精通 Python 设计模式——测试模式
python·设计模式·架构
数据智能老司机18 小时前
精通 Python 设计模式——性能模式
python·设计模式·架构
c8i18 小时前
drf初步梳理
python·django