读取数据
python
import pandas as pd
# df = pd.read_excel('https://xxxx/xxx//xx.xslx') # 读取网络数据
# df = pd.read_excel(r'd:\data\xx.xslx') # 读取本地文件
# 如果是csv文件,用read_csv()函数
df = pd.read_csv('seaborn/iris.csv')
查看数据
python
df.head() # 前5条记录
df.tail() # 后5条记录
df.sample(5)# 随机5条记录
df[10:15] # 10~14记录
验证数据
python
# df.shape # 查看行数与列树数(注意是属性,不是函数)
# df.info() # 查看索引、类型、内存信息
# df.describe() # 查看数字列的汇总信息
# df.dtypes # 查看各字段类型
# df.axes # 查看数据行、列名
df.columns # 查看列名
建立索引
python
df.set_index('species',inplace=True) # 指定species 列为索引
选取数据、排序等
python
## 列选择
# df['sepal_length'] # 通过列名筛选
# df.sepal_length # 同上
# df[['sepal_length','sepal_width']] # 选择多列,注意数组写法
# df.loc[:,['sepal_length','sepal_width']] # df.loc[x,y]是---个非常强大的数据选择函数,其中x代表行,y代表列。df.iloc[x,y] 与df.locl类似,使用的是自然索引
## 行选择
# df[df.index == 'setosa'] # 指定行索引
# df[0:3] # 使用自然索引,类似切片
# df[0:10:2] #前10个中每两个取一个
# df.iloc[0:10,:] #取前十个
## 行、列选择
# df.loc['setosa','sepal_length':'petal_length'] # 'sepal_length':'petal_length'表示列范围
## 排序
# df.sort_values('sepal_length') # 按照sepal_length升序排列
df.sort_values('sepal_length',ascending=False) # 按照sepal_length降序排列
分组聚合
python
# df.groupby('species') # 按照行索引分组 species是行索引名称
# df.groupby('species').sum() # 分组计算各列数值的总和
df.groupby('species').agg({
'sepal_length':sum, # 总和
'sepal_width': 'count', # 数量
'petal_length': 'mean', # 均值
'petal_length':max # 最大值
})
pandas 数据结构
numpy
NumPy(Numeric Python)是Python的科学计算包,提供多维数组、蒙版数组、矩阵等对象,用于对数组进行快速便捷操作,包括数学、逻辑、形状处理、排序、傅里叶变换、线性代数等。
由于NumPy对数据进行向量化描述,没有任何显式的循环操作,所以执行速度更快,代码更加简洁优雅,出错率更低。NumPy提供了两个基本的对象:
- ndarray :存储数据的多维数组
- ufunc :对数组进行处理的函数
使用NumPy需要先导入,约定俗成地为它起别名np。
数据类型
np.int64 有符号64位整形
np.float32 标准双精度浮点型
np.complex 由128位浮点数组组成的复数类型
np.bool bool类型(True 或 False)
np.object Python 中的object类型
np.string 固定长度的string类型
np.unicode 固定长度的unicode类型
np.NaN np.float的子类型,可以认为是None,但又能参与数字运算
np.nan 同 np.nan
Series
Series(系数、数列、序列)是一个带有标签的一维数组,这一系列连续的数据代表了一定的业务意义。
DataFrame
DataFrame意为数据框,它就像一个存放数据的架子,有多行多列,每个数据在一个格子里,每个格子有自己的编号。
常见数据类型:
- float
- int
- bool
- datetime64[ns]
- datetime64[ns,tz]
- timedelta64[ns]
- timedelta[ns]
- category
- object
- string
数据检测:注意s参数表示一个Series
- pd.api.types.is_bool_dtype(s)
- pd.api.types.is_int64_dtype(s)
- ...
索引
- 索引(index):行和列上的标签,标识二维数据坐标的行索引和列索引,默认情况下,指的是每一行的索引。列索引又被称为字段名,表头。
- 自然索引、数字索引:行和列的0~n(n为数据长度-1)形式的索引,数据天然具有的索引形式。
- 标签(label):行索引和列索引,如果是Series,那只能是它行上的索引。
- 轴(axis):仅用在DataFrame结构中,代表数据的方向,如行和列,用0代表列(默认),1代表行。