Pandas学习笔记

Pandas数据分析处理库

数据预处理

导入一份泰坦尼克号乘客数据

复制代码
df.head()展示读取数据,默认读取前5行
df.tail()默认读取后5行
df.head(10)读取前10行

DataFrame结构

Pandas工具包的基础结构,二维矩阵结构,行表示数据样本,列表示特征指标。基本上读取数据返回的都是DataFrame结构。

DataFrame能调用的属性很多,具体查看API文档。

举例几种:

数据索引




Pandas中bool类型同样可以当作索引:

创建DataFrame

创建一个字典结构,其中key表示特征名字,value表示各个样本的实际值,通过pf.DataFrame()函数来创建。

Series操作

前面的操作对象都是DataFrame,读取的数据都是二维的,

如果在数据中单独取一列,就是Series格式,DataFrame是由Series组合起来得到的。

创建Series:

数据分析

机器学习中比拼的就是数据特征够不够好,将特征中连续值离散化是常用套路。

pivot数据透视表

groupby操作

常用函数操作

Merge操作

如key列值不同

复制代码
data.drop_duplicates()去掉重复数据
data.drop_duplicates(subset='k1')只考虑某一列重复的情况,其他全部舍弃
数据处理通常会遇到缺失值,通过isnull()函数判断缺失情况,True表示缺失
df.isnull().any()判断某一列是否有缺失
相关推荐
序属秋秋秋1 小时前
《C++初阶之内存管理》【内存分布 + operator new/delete + 定位new】
开发语言·c++·笔记·学习
许白掰1 小时前
Linux入门篇学习——Linux 工具之 make 工具和 makefile 文件
linux·运维·服务器·前端·学习·编辑器
B1nna2 小时前
Docker学习
学习·docker·容器
quant_19863 小时前
R语言如何接入实时行情接口
开发语言·经验分享·笔记·python·websocket·金融·r语言
promising-w8 小时前
【运算放大器专题】基础篇
嵌入式硬件·学习
宝山哥哥8 小时前
网络信息安全学习笔记1----------网络信息安全概述
网络·笔记·学习·安全·网络安全
前端开发与ui设计的老司机8 小时前
从UI设计到数字孪生实战:构建智慧教育的个性化学习平台
学习·ui
X Y O8 小时前
神经网络初步学习3——数据与损失
人工智能·神经网络·学习
逼子格9 小时前
逻辑门电路Multisim电路仿真汇总——硬件工程师笔记
笔记·硬件工程师·multisim·电路仿真·逻辑门·硬件工程师学习·电路图
@Hwang9 小时前
【ESP32-IDF笔记】09-UART配置和使用
笔记·esp32·uart·esp32s3·esp32-idf