【python数据分析11】——Pandas统计分析(分组聚合进行组内计算)

分组聚合进行组内计算

前言
1、groupby方法拆分数据
2、agg方法聚合数据
3、apply方法聚合数据
4、transform方法聚合数据
[5 小案例](#5 小案例)
- [5.1 按照时间对菜品订单详情表进行拆分](#5.1 按照时间对菜品订单详情表进行拆分)
- [5.2 使用agg方法计算](#5.2 使用agg方法计算)
- [5.3 使用apply方法统计单日菜品销售数目](#5.3 使用apply方法统计单日菜品销售数目)

前言

依据某个或者几个字段对数据集进行分组，并对各组应用一个函数，无论是聚合还是转换，都是数据分析的常用操作。pandas提供了一个灵活高效的groupby方法，配合agg或apply方法，能够实现分组聚合的操作。

原理图如下：

1、groupby方法拆分数据

groupby方法提供的是分组聚合步骤中的拆分功能，能够根据索引或者字段对数据进行分组。方法格式如下：

python 复制代码

DataFrame.groupby(by=None,axis=0,level=None,as_index=True,sort=True,group_key=True,squeeze=False,**kwargs)

参数说明：

by：接收list、string、mapping或 generator。用于确定进行分组的依据。如果传人的是一个函数，则对索引进行计算并分组；如果传入的是一个字典或者Series，则字典或者Series的值用来作为分组依据；如果传入一个NumPy数组，则数据的元素作为分组依据；如果传人的是字符串或者字符串列表，则使用这些字符串所代表的字段作为分组依据。无默认。
axis：表示操作的轴向，默认对列进行操作。默认为0。
level：接收int或者索引名。代表标签所在级别。默认为None。
as_index：表示聚合后的聚合标签是否以DataFrame 索引形式输出。默认为 True。
sort：接收boolean。表示是否对分组依据、分组标签进行排序。默认为True。
group_keys：接收boolean。表示是否显示分组标签的名称。默认为 True。
squeeze：接收boolean。表示是否在允许的情况下对返回数据进行降维。默认为False。

以餐饮企业的菜品订单详情表为例，依据订单编号对数据进行分组。

python 复制代码

import pandas as pd
import numpy as np
from sqlalchemy import create_engine
username = 'root'  # 替换为你的数据库用户名
password = '1234'  # 替换为你的数据库密码
host = 'localhost'          # 数据库地址
database = 'testdb'  # 数据库名称
 
# 创建数据库连接
engine = create_engine(f'mysql+pymysql://{username}:{password}@{host}/{database}')
detail = pd.read_sql_table('meal_order_detail1',con = engine)
detailGroup = detail[['order_id','counts',
      'amounts']].groupby(by = 'order_id')
print('分组后的订单详情表为：',detailGroup)

输出：

由输出可知，分组后的结果并不能直接看，而是被存在内存中，输出的是内存地址。实际上，分组后的数据对象Groupby类似于Series与DataFrame，是pandas提供的一种对象。常用的描述性统计方法如下表：

方法名称	说明
count	计算分组的数目，包括缺失值
head	返回每组的前n个值
max	返回每组最大值
mean	返回每组的均值
median	返回每组的中位数
cumcount	对每个分组中的组员进行标记，0~n-1
size	返回每组的大小
min	返回每组最小值
std	返回每组的标准差
sum	返回每组的和

对餐饮企业的菜品订单表经过分组操作后的每一组的均值、标准差、中位数

python 复制代码

print('订单详情表分组后前5组每组的均值为：\n', 
      detailGroup.mean().head())
print('订单详情表分组后前5组每组的标准差为：\n', 
      detailGroup.std().head())
print('订单详情表分组后前5组每组的大小为：','\n', 
      detailGroup.size().head())

2、agg方法聚合数据

agg、aggregate方法支持对每个分组应用某函数，包括python内置函数或自定义函数。同时这两个方法也能直接对DataFrame进行函数应用操作。

注意：agg函数能够对DataFrame对象进行操作师从pandas0.20版本开始的，在之前版本中，没有此功能。针对DataFrame的aggyuaggregate函数使用格式如下：
DataFrame.agg(func,axis=0,*args,**kwargs)
DataFrame.aggregate(func,axis=0,*args,**kwargs)

参数说明如下：

func：接收list、dict、function。表示应用于每行或者每列的函数。无默认
axis：接收0或1。代表操作的轴向。默认为0

agg、aggregate几乎完全相同，以T餐饮企业的菜品订单信息表为例，使用agg方法一次求出当前数据中所有菜品销量和售价的总和与均值，如下：

python 复制代码

print('订单详情表的菜品销量与售价的和与均值为：\n',
      detail[['counts','amounts']].agg([np.sum,np.mean]))

输出：
一个字段求和，另一个求均值

python 复制代码

print('订单详情表的菜品销量总和与售价的均值为：\n',
      detail.agg({'counts':np.sum,'amounts':np.mean}))

输出：

求某个字段多个统计量

python 复制代码

print('菜品订单详情表的菜品销量总和与售价的总和与均值为：\n',
      detail.agg({'counts':np.sum,'amounts':[np.mean,np.sum]}))

输出：

上述都是numpy库的统计函数，也可以传入自定义的函数。例如：

python 复制代码

##自定义函数求两倍的和
def DoubleSum(data):
    s = data.sum()*2
    return s
print('菜品订单详情表的菜品销量两倍总和为：','\n',
      detail.agg({'counts':DoubleSum},axis = 0))

输出：

在自定义函数中，使用numpy库中的这些函数时，如果计算的时候是单个序列，则无法得出想要的结果，如果是多列数据同时计算，就不会出现这个问题。例如：

python 复制代码

##自定义函数求两倍的和
def DoubleSum1(data):
    s = np.sum(data)*2
    return s
print('订单详情表的菜品销量两倍总和为：\n',
      detail.agg({'counts':DoubleSum1},axis = 0).head())

print('订单详情表的菜品销量与售价的和的两倍为：\n',
      detail[['counts','amounts']].agg(DoubleSum1))

输出：

使用agg方法也能够实现对每一个字段的每一组使用相同的函数，如下：

python 复制代码

print('订单详情表分组后前3组每组的均值为：\n', 
      detailGroup.agg(np.mean).head(3))

print('订单详情表分组后前3组每组的标准差为：\n', 
      detailGroup.agg(np.std).head(3))

输出：

如果需要对不同的字段应用不同的函数，则与DataFrame中使用agg方法的操作相同。使用agg方法对分组后的菜品订单表求取每组菜品总数和售价均值。

python 复制代码

print('订单详情分组前3组每组菜品总数和售价均值为：\n', 
      detailGroup.agg({'counts':np.sum,
            'amounts':np.mean}).head(3))

3、apply方法聚合数据

apply方法类似于agg方法，能够将函数应用于每一列。不同之处在与，与agg方法相比，apply方法传入的函数只能够作用于整个DataFrame或者Series，而无法像agg一样能够对不同字段应用不同函数来获取不同结果。

apply方法的形式如下：
DataFrame.apply(func，axis=0，broadcast=False，raw=False，reduce=None,args(),**kwds)

参数说明：

func：接收functions,表示应用于每行或每列的函数，无默认
axis：接收0或1，代表操作的轴向。默认为0
broadcast：接收boolean，表示是否进行广播。默认为False
raw：接收boolean，表示是否直接将ndarray对象传递给函数。默认为False
reduce：接收boolean或者None，表示返回值的格式。默认None

apply方法的使用方式和agg方法相同，如下：

python 复制代码

print('订单详情表的菜品销量与售价的均值为：\n',
      detail[['counts','amounts']].apply(np.mean))

使用apply方法对groupby对象进行聚合操作的方法和agg方法也相同，只是使用agg方法能够实现对不同的字段应用不同的函数，而apply不行。

4、transform方法聚合数据

transform方法能够对整个DataFrame的所有元素进行操作。transform方法只有一个参数"func",表示对DataFrame操作的函数，如下：

python 复制代码

print('订单详情表的菜品销量与售价的两倍为：\n',
      detail[['counts','amounts']].transform(
            lambda x:x*2).head(4))

输出：

同时，transform方法还能够对DataFrame分组后的对象groupby进行操作，可以实现组内离差标准化等操作。

python 复制代码

print('订单详情表分组后实现组内离差标准化后前五行为：\n', 
      detailGroup.transform(lambda x:(x.mean()
            -x.min())/(x.max()-x.min())).head())

输出：

输出中部分为NaN,这是由于销量中的许多订单的最大值和最小值是相同的，根据离差标准化公式，最大值和最小值相同的情况下分母是0，而分母为0的数在python中表示为NaN

5 小案例

5.1 按照时间对菜品订单详情表进行拆分

通过分组聚合的方式能够将每天的数据放在一个组内，从而可以方便地对每一个组的内容进行分析。

python 复制代码

import pandas as pd
import numpy as np
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:\
3306/testdb?charset=utf8')
detail = pd.read_sql_table('meal_order_detail1',con = engine)
detail['place_order_time'] = pd.to_datetime(
       detail['place_order_time'])
detail['date'] = [i.date() for i in detail['place_order_time']]
detailGroup = detail[['date','counts','amounts']].groupby(by='date')
print('订单详情表前5组每组的数目为：\n',detailGroup.size().head())

5.2 使用agg方法计算

对已经拆分完成的订单详情表进行聚合，得出每组的销售均价和售价中位数等信息

python 复制代码

dayMean = detailGroup.agg({'amounts':np.mean})
print('订单详情表前五组每日菜品均价为：\n',dayMean.head())

dayMedian = detailGroup.agg({'amounts':np.median})
print('订单详情表前五组每日菜品售价中位数为：\n',dayMedian.head())

输出：

5.3 使用apply方法统计单日菜品销售数目

除了可以对售价进行计算外，还可以计算单日总共销售的菜品数目，如下

python 复制代码

daySaleSum = detailGroup.apply(np.sum)['counts']
print('订单详情表前五组每日菜品售出数目为：\n',daySaleSum.head())

输出：