为什么要学习pandas？

numpy已经可以帮助我们进行数据的处理了，那么学习pandas的目的是什么呢？
- numpy能够帮助我们处理的是数值型 的数据，当然在数据分析中除了数值型的数据还有好多其他类型的数据（字符串，时间序列），那么pandas就可以帮我们很好的处理除了数值型的其他数据！

什么是pandas？

首先先来认识pandas中的两个常用的类
- Series
- DataFrame

Series

Series是一种类似与一维数组的对象，由下面两个部分组成：
- values：一组数据（ndarray类型）
- index：相关的数据索引标签
Series的创建
- 由列表或numpy数组创建
- 由字典创建
  
  from pandas import Series
  s = Series(data=[1,2,3,'four]) # 创建一个有索引的数据
  s
  代码结果：
  0 1
  1 2
  2 3
  3 four
  dtype: object
  
  import numpy as np
  s = Series(data = np.random.randint(0,100,size=(3,))) # 使用numpy模块和pandas模块中的Series类，创建一个3行0列的简单表格
  s
  代码结果：
  0 3
  1 43
  2 82
  dtype: int64
  
  from pandas import Series
  s = Series(data=[1,2,3,'four'],index=['a','b','c','d']) # 创建一个表格，行索引是a,b,c,d 对应的值是data中的元素
  s
  代码结果：
  a 1
  b 2
  c 3
  d four
  dtype: object

为什么需要有显示索引

复制代码

#### 显示索引可以增强Series的可读性

    form pandas import Series
    dic ={
      '语文':100,
      '数学':120,
      '英语':125,
    }
    s = Series(data=dic)
    s
    代码结果：
    语文    100
    数学     99
    理综    250
    dtype: int64

Series的索引和切片

复制代码

  from pandas import Series
  dic = {
    '语文':100,
    '数学':120,
    '英语':125
  }
  s = Series(data=dic)
  s
  代码结果：
  语文    100
  数学    120
  理综    125
  dtype: int64

  s[0] # 取出索引为0，第一行语文的数据
  s.语文 # 直接取出语文这一行的数据
  s.[0:2] # 取出索引0-2的数据，就是语文、数学这两行

Series的常用属性

s.shape 显示元素的行数
s.size 显示元素的个数，索引
s.index 元素的列索引
s.values 返回值
s.dtype 元素的类型

Series的常用方法

head(),tail()
unique()
isnull(),notnull()

add() sub() mul() div()

复制代码

import numpy as np
from pandas import Series
s = Series(data = np.random.randint(1,100),size=(4,))

代码结果：
0    12
1    51
2    50
3    96
dtype: int32

s.head(2) # 显示前2行的数据
代码结果：
0    12
1    51
dtype: int32

s.tail(2) # 显示后3个数据
代码结果：
0    12
1    51
dtype: int32

s.unique() # 去重
代码结果：
array([12, 51, 50, 96])

s.isnull() # 用于判断每一个元素是否为空，为空返回True，否则返回False
代码结果：
0    False
1    False
2    False
3    False
dtype: bool

s.notnull() 
代码结果:
0    False
1    False
2    False
3    False
dtype: bool

DataFrame

DataFrame是一个【表格型】的数据结构。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。
- 行索引：index
- 列索引：columns
- 值：values
DataFrame的创建
- ndarray创建
- 字典创建
  
  from pandas import DataFrame
  df = DataFrame(data=([1,2,3],[1,2,3])) 创建一个二维的表格
  df
  代码结果：
  
  0 1 2
  
  0 1 2
  
  1 1 2
  
  from pandas import DataFrame
  import numpy as np
  df = DataFrame(data=np.random.randint(1,100,size=(3,4)))
  df
  代码结果：
  
  0 1 2 3
  
  0 9 68 39
  
  1 86 83 53
  
  2 68 82 80
  
  import numpy as np
  from pandas import DataFrame
  dic = {
  'name':['zt','cy','xcy'],
  'salary':[1000,2000,3000]
  }
  
  df = DataFrame(data=dic,index=['a','b','c'])
  df
  代码结果：
  
  ----- name salary
  
  a zt 1000
  
  b cy 2000
  
  c xcy 3000

0	1	2
0	1	2
1	1	2

0	1	2	3
0	9	68	39
1	86	83	53
2	68	82	80

-----	name	salary
a	zt	1000
b	cy	2000
c	xcy	3000

DataFrame的属性

values、columns、index、shape

df.values：

复制代码

   array([['zt', 1000],
          ['cy', 2000],
          ['xcy', 3000]], dtype=object)

df.columns：

复制代码

   Index(['name', 'salary'], dtype='object')

df.index：

复制代码

       Index(['a', 'b', 'c'], dtype='object')

 </details>

df.shape：

(3, 2)

练习：

根据以下考试成绩表，创建一个DataFrame，命名为df：

复制代码

    张三  李四  
语文 150  0
数学 150  0
英语 150  0
理综 300  0

 import numpy as np
 from pandas import DataFrame
 dic = {
     '张三':[150,150,150,150],
     '李四':[0,0,0,0],
 }
 df = DataFrame(data=dic,index=['语文','数学','英语','理综'])
 df

DataFrame索引操作

对行进行索引

复制代码

  import numpy as np
  from pandas import DataFrame
  df = DataFrame(data = np.random.randint(1,100,size=(4,5)),index=['a','b','c','d'])
  df

  代码结果：
  | 0    | 1    | 2    | 3    | 4    |
  | ---- | ---- | ---- | ---- | ---- |
  | a    | 72   | 4    | 35   | 97   |
  | b    | 53   | 36   | 4    | 75   |
  | c    | 65   | 35   | 25   | 55   |
  | d    | 8    | 68   | 52   | 33   |

对列进行索引

复制代码

  import numpy as np
  from pandas import DataFrame
  df = DataFrame(data = np.random.randint(1,100,size=(9,5)),columns=['a','b','c','d','e'])
  df

  代码结果：
  | a    | b    | c    | d    | e    |
  | ---- | ---- | ---- | ---- | ---- |
  | 0    | 87   | 35   | 75   | 10   |
  | 1    | 12   | 83   | 11   | 14   |
  | 2    | 57   | 8    | 62   | 99   |
  | 3    | 29   | 55   | 96   | 37   |
  | 4    | 66   | 65   | 1    | 94   |
  | 5    | 32   | 54   | 17   | 75   |
  | 6    | 48   | 26   | 65   | 46   |
  | 7    | 3    | 6    | 10   | 14   |
  | 8    | 14   | 26   | 32   | 96   |

对元素进行索引

复制代码

df['a'] # 取单列，如果df有显示的索引，通过索引机制去行或者列的时候只可以使用显示索引
df[['a','c']] # 取多列

iloc:
    # 通过隐式索引取行
loc:
    # 通过显示索引取行

df.loc[0] # 取单行
df.iloc[[0,3,5]] # 取多行

#取单个元素
df.iloc[0,2]
df.loc[0,'a']

#取多个元素
df.iloc[[1,3,5],2]

DataFrame的切片操作

对行进行切片

复制代码

| a    | b    | c    | d    |
| ---- | ---- | ---- | ---- |
| 0    | 95   | 87   | 83   |
| 1    | 76   | 82   | 78   |
| 2    | 69   | 94   | 89   |
| 3    | 74   | 77   | 93   |
| 4    | 75   | 88   | 93   |
| 5    | 67   | 98   | 66   |
| 6    | 95   | 83   | 71   |
| 7    | 72   | 74   | 79   |
 
df[0:2] # 切行
代码结果：
| a    | b    | c    | d    |
| ---- | ---- | ---- | ---- |
| 0    | 95   | 87   | 83   |
| 1    | 76   | 82   | 78   |


df.iloc[:,0:2] # 切列
代码结果：
| a    | b    |
| ---- | ---- |
| 0    | 95   |
| 1    | 76   |
| 2    | 69   |
| 3    | 74   |
| 4    | 75   |
| 5    | 67   |
| 6    | 95   |
| 7    | 72   |

对列进行切片

复制代码

df.iloc[:,0:2] # 切列
代码结果：
| a    | b    |
| ---- | ---- |
| 0    | 95   |
| 1    | 76   |
| 2    | 69   |
| 3    | 74   |
| 4    | 75   |
| 5    | 67   |
| 6    | 95   |
| 7    | 72   |

总结：df索引和切片操作

索引：
- df $col$ :取列
- df.loc $index$ :取行
- df.iloc $index,col$ :取元素
切片：
- df $index1:index3$ :切行
- df.iloc $:,col1:col3$ :切列

练习题：

复制代码

  1. 假设ddd是期中考试成绩，ddd2是期末考试成绩，请自由创建ddd2，并将其与ddd相加，求期中期末平均值。
  import numpy as np
  from pandas import DataFrame
  dic1 ={
      '张三':[150,150,150,150],
      '李四':[0,0,0,0]
  }
  dic2={
      '张三':[120,120,120,120],
      '李四':[15,15,15,15]
  }
  ddd = DataFrame(data=dic1,index=['语文','数学','英语','理综'])
  ddd2 = DataFrame(data=dic2,index=['语文','数学','英语','理综'])
  (ddd + ddd2) / 2  # 其中期末的平均值

  代码结果：
  | 张三   | 李四    |
  |  ---- | ----- |
  | 语文   | 135.0 |
  | 数学   | 135.0 |
  | 英语   | 135.0 |
  | 理综   | 135.0 |


  2. 假设张三期中考试数学被发现作弊，要记为0分，如何实现？
  dd.loc['数学','张三'] = 0
  ddd

  代码结果：
  | 张三   | 李四   |
  | ---- | ---- |
  | 语文   | 150  |
  | 数学   | 0    |
  | 英语   | 150  |
  | 理综   | 150  |

  3. 李四因为举报张三作弊立功，期中考试所有科目加100分，如何实现？
  ddd['李四'] += 100
  ddd

  代码结果：
  | 张三   | 李四   |
  | ---- | ---- |
  | 语文   | 150  |
  | 数学   | 0    |
  | 英语   | 150  |
  | 理综   | 150  |

  4. 后来老师发现有一道题出错了，为了安抚学生情绪，给每位学生每个科目都加10分，如何实现？
  ddd += 10
  ddd

  代码结果：
  | 张三   | 李四   |
  | ---- | ---- |
  | 语文   | 160  |
  | 数学   | 10   |
  | 英语   | 160  |
  | 理综   | 160  |

拓展：时间数据类型的转换

pd.to_datetime(col)
将某一列设置为行索引
- df.set_index()
  
  dic = {
  'time':['2010-10-10','2011-11-20','2020-01-10'],
  'temp':[33,31,30]
  }
  df = DataFrame(data=dic)
  df
  
  | | time | temp |
  | ---- | ---------- | |
  | 0 | 2010-10-10 | 33 |
  | 1 | 2011-11-20 | 31 |
  | 2 | 2020-01-10 | 30 |
  
  #查看time列的类型
  df['time'].dtype
  dtype('O')
  
  import pandas as pd
  #将time列的数据类型转换成时间序列类型
  df['time'] = pd.to_datetime(df['time'])
  df['time']
  
  #将time列作为源数据的行索引
  df.set_index('time',inplace=True)

数据分析---pandas模块

为什么要学习pandas？

什么是pandas？

Series

为什么需要有显示索引

Series的索引和切片

Series的常用属性

Series的常用方法

DataFrame

DataFrame的属性

DataFrame索引操作

DataFrame的切片操作

总结：df索引和切片操作

练习题：

拓展：时间数据类型的转换