数据分析之Pandas入门小结

Pandas数据类型

从数据类型来说,pandas主要数据结构有四种,Series,DataFrame, Arrays, Panel. 目前主要用的是前面两种数据框DataFrame 和序列Series。DataFrame是二维数据,有行有列,DataFrame默认会自动创建行索引。 Series是一维数据,默认有索引。

  1. Series定义访问如下:
  1. DataFrame定义访问如下,可以从文件读也可以自己定义

数据类型主要支持下面几种:

字符串类型:object

整数类型:Int64,Int32,Int16, Int8

无符号整数:UInt64,UInt32,UInt16, UInt8

浮点数类型:float64,float32

日期和时间类型:datetime64[ns]、datetime64[ns, tz]、timedelta[ns]

布尔类型:bool

Pandas应用

Pandas可以读取多种类型文件,如excel, txt, csv等, 这里小结下读取csv文件。

文件读取

默认分割符是",", 可以不用指定,如果是其他分割符需要指定seq参数。在路径前面加上r, 是防止被转义。

1.路径前加r

2.指定分隔符

文件解析

1.查看文件内容,通过newdf.head(),查看前100行,可以用newdf.head(100), 也可以直接输入变量名df查看全部内容,如上图

2.查看DataFrames数据类型及文件大小, 用newdf.info()

  1. 处理数据,删除可以用drop或del, drop会将删除后的数据生成副本,原先的数据不做修改,如下图。
  1. del 删除,是直接删除
  1. drop时,默认axis=0,不设置时是按行删除,设置axis=1时是按列删除。DataFrame默认生成行索引,可通过index指定索引值去删除行。删除列时,可用columns指定列名,也可直接用列名指定。
  1. 读取数据

iloc方法为默认,可通过行索引取值,可以读取切片数据,如下:

列读取可以直接用列名读取

  1. 设置列索引,可以手动定义列索引,一旦定义列索引后,行索引自动消失,也就不能用iloc访问数据。如下图a列被定义为索引

可以用loc来访问列为索引列, 当然索引列是不能访问的。用索引列访问会报错,该列为索引列 df['a'],其他列依然可以用列名访问数据。

下图是用loc来访问列索引来得到数据。

8.数据填充或处理

填充空白值(NaN),最简单的可以直接替换,设置指定列替换为指定值,指定列的空值就会被替换为目标数据,如newdf2=df.fillna({'b':3,'f':7})

数据处理,如将d列都设置为两位数据,取值可以根据需求用正则表达式设定,如这里取d里最前2位数为d列的值。

相关推荐
sheji34161 小时前
【开题答辩全过程】以 python杭州亚运会数据分析与可视化开题为例,包含答辩的问题和答案
开发语言·python·数据分析
2401_841495644 小时前
【计算机视觉】基于数学形态学的保留边缘图像去噪
人工智能·python·算法·计算机视觉·图像去噪·数学形态学·边缘保留
丰海洋5 小时前
神经网络实验3-线性回归
python·神经网络·线性回归
BruceD_5 小时前
新装 CentOS 7 切换 yum 源完整指南
linux·python·docker·centos·yum
带娃的IT创业者5 小时前
第4集:配置管理的艺术:环境变量、多环境配置与安全实践
开发语言·python·安全·项目配置·开发基础
JJJJ_iii5 小时前
【深度学习01】快速上手 PyTorch:环境 + IDE+Dataset
pytorch·笔记·python·深度学习·学习·jupyter
盛世隐者6 小时前
python包管理器——uv
开发语言·python·uv
2401_841495647 小时前
【计算机视觉】分水岭实现医学诊断
图像处理·人工智能·python·算法·计算机视觉·分水岭算法·医学ct图像分割
毕设源码-赖学姐10 小时前
【开题答辩全过程】以 Python在浙江省人口流动数据分析与城市规划建议的应用为例,包含答辩的问题和答案
开发语言·python·数据分析
qq_73917536910 小时前
Android Studio 实现四则运算+开方+倒数简易计算器
android·python·android studio