数据分析和机器学习库Pandas的使用

Pandas 库是一个免费、开源的第三方 Python 库，是 Python 数据分析和机器学习的工具之一。Pandas 提供了两种数据结构，分别是 Series（一维数组结构）与 DataFrame（二维数组结构），极大地增强的了 Pandas 的数据分析能力。

import pandas as pd

import numpy as np

Series

Series是一种类似于一维数组的对象，由下面两个部分组成：
- Values：一组数据（ndarray类型）
- index：相关的数据索引标签
Series的创建
- 由列表或numpy数组创建
- 由字典创建

s1 = pd.Series( $1,2,3,4,5$ )

s1 = pd.Series( $1,2,'three',4,5.1$ )

#Series只可以存储相同类型的元素

#使用一维数组作为Series的数据源

s2 = pd.Series(np.random.randint(0,10,size=(4,)))

#使用字典作为Series的数据源

dic = {

'name':'bobo',

'age':20,

'salary':1000

}

s3 = pd.Series(dic)

#字典做Series的数据源，字典的key充当的是Series的索引，字典的value值充当的是Series的value值

Series的索引
- 隐式索引：默认形式的索引（0,1,2...）
- 显式索引：自定义的索引，可以通过index参数设置显式索引

s4 = pd.Series( $99,100,120$ ,index= $'语文','数学','英语'$ )

显式索引的作用：增加了数据的可读性

Series的索引和切片：和列表一致

s = pd.Series( $99,100,120,100$ ,index= $'语文','数学','英语','理综'$ )

#显式索引不会覆盖隐式索引

#索引操作

s $0$ ,s $'语文'$ ,s.语文

s $\[0,1$ ],s $\['语文','理综'$ ]

#切片

s $0:3$ ,s $'语文':'理综'$

Series的常用属性
- shape
- size
- index
- values

s.shape#返回形状

s.size#返回Series元素的个数

s.index#返回索引

s.values#返回value值

Series的常用方法（重要）
- head(),tail()
- unique(),nunuque(),values_counts()
- isnull(),notnull()
- add(),sub(),mul(),div()

s1 = pd.Series(np.random.randint(0,10,size=(5,)),index= $'a','b','c','d','e'$ )

s2 = pd.Series(np.random.randint(0,10,size=(5,)),index= $'a','b','c','f','e'$ )

s = s1 + s2 #s1.add(s2)

s #Series的运算法则：只有索引一致的元素可以进行算术运算，否则就补空NaN

s.head(3) #只显示前3个元素

s.tail(2) #只显示后2个元素

#nuique():对Series的元素进行去重

s.unique()

#nunique():可以统计去重后非空元素的个数

s.nunique()

#value_counts():可以统计Series中非空元素出现的次数

s.value_counts()

#isnull():可以对Series中存储的每一个元素进行空值判定，如果为空则返回True，否则返回False

s.isnull()

#notnull():可以对Series中存储的每一个元素进行非空判定，如果为非空则返回True，否则返回False

s.notnull()

#可以使用布尔值作为Series的索引进行取值：可以将True对应位置的元素取出，False对应的元素忽略

s $\[True,True,True,False,True,False$ ]

#对Series中的空值进行了过滤

s $s.notnull()$ #实现了空值的过滤

DataFrame（重点）

DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。
- 行索引：index
- 列索引：columns
- 值：values
DataFrame的创建
- ndarray创建
- 字典创建