Pandas数据清洗_Python数据分析与可视化

Pandas数据清洗

在处理数据的时候,需要对数据进行一个清洗过程。清洗操作包括:空白行的删除、数据完整性检验、数据填充、插值等内容。

下面是数据清洗过程中使用的具体方法

删除缺失值

DataFrame.dropna 方法用于删除含有缺失值的行或列,关键参数:axishow

axis

表示轴向,0 为行,1 为列,默认 0。

how

表示删除形式,how = 'any' 表示只要有缺失值就删除;how='all' 表示全为缺失值才删除。

检测缺失值

DataFrame.isnull() 识别缺失值,返回包含TrueFalse的 DataFrame。
DataFrame.notnull() 方法识别非缺失值,返回包含TrueFalse的 DataFrame。

上述两方法结合sum函数可用于检测数据序列中缺失值的分布情况。

填充缺失值

DataFrame.fillna 方法能用指定值替换缺失值。关键参数:valuemethodaxis

value

表示指定的填充值。

method
method = 'bfill'后向填充,用后面的非缺失值填充;
method = 'ffill'前向填充,用前面的非缺失值填充。

axis

表示操作轴向,默认1(列)。

拉格朗日插值

csharp 复制代码
from scipy.interpolate import lagrange
formula = lagrange(x,y)#formula是通过lagrange方法生成的公式,x和y为数据序列
ins_y = formula(ins_x)#ins_x为缺失值所在位置,ins_y为插值结果。

线性插值

csharp 复制代码
from scipy.interpolate import interp1d#1是数字一
formula = interp1d(x,y,kind = 'linear')#formula是通过linear方法生成的公式,x和y为数据序列
ins_y = formula(ins_x)#ins_x为缺失值所在位置,ins_y为插值结果。
相关推荐
冷雨夜中漫步1 小时前
Python快速入门(6)——for/if/while语句
开发语言·经验分享·笔记·python
郝学胜-神的一滴2 小时前
深入解析Python字典的继承关系:从abc模块看设计之美
网络·数据结构·python·程序人生
百锦再2 小时前
Reactive编程入门:Project Reactor 深度指南
前端·javascript·python·react.js·django·前端框架·reactjs
李慕婉学姐2 小时前
【开题答辩过程】以《基于社交网络用户兴趣大数据分析》为例,不知道这个选题怎么做的,不知道这个选题怎么开题答辩的可以进来看看
数据挖掘·数据分析
喵手3 小时前
Python爬虫实战:旅游数据采集实战 - 携程&去哪儿酒店机票价格监控完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·采集结果csv导出·旅游数据采集·携程/去哪儿酒店机票价格监控
2501_944934734 小时前
高职大数据技术专业,CDA和Python认证优先考哪个?
大数据·开发语言·python
helloworldandy4 小时前
使用Pandas进行数据分析:从数据清洗到可视化
jvm·数据库·python
肖永威5 小时前
macOS环境安装/卸载python实践笔记
笔记·python·macos
TechWJ5 小时前
PyPTO编程范式深度解读:让NPU开发像写Python一样简单
开发语言·python·cann·pypto
枷锁—sha5 小时前
【SRC】SQL注入WAF 绕过应对策略(二)
网络·数据库·python·sql·安全·网络安全