分组聚合不再难:Pandas groupby使用指南

处理大量数据时,经常需要对数据进行分组和汇总,groupby为我们提供了一种简洁、高效的方式来实现这些操作,从而简化了数据分析的流程。

分组聚合是什么

分组是指根据一个或多个列的值将数据分成多个组,每个组包含具有相同键值(这里的键值即用来分组的列值)的数据行。

聚合 或者汇总则是指,在分组后,可以对每个组应用聚合函数(如求和、平均值、计数等),从而得到每个组的汇总信息。

准备数据

下面的示例中使用的数据采集自A股2024年1月和2月的真实交易数据。

数据下载地址:databook.top/

导入数据:

python 复制代码
import pandas as pd

fp = r'D:\data\2024\历史行情数据-不复权-2024.csv'

df = pd.read_csv(fp)
df = df.loc[:, ["股票代码", "日期", "开盘", "收盘", "最高", "最低", "成交量"]]
df

groupby 使用示例

下面通过具体的示例演示groupby常用的使用方法。

单列分组再聚合

单列聚合是指针对某一列汇总计算,比如:

针对**"股票代码"聚合,看看不同股票的 开盘价收盘价**的平均值。

python 复制代码
# 只保留需要的列
data = df.loc[:, ["股票代码", "开盘", "收盘"]]

# 根据股票代码聚合平均值
data.groupby(by=["股票代码"]).mean()

一共5352支股票,聚合之后,红色框内的是每支股票开盘价收盘价的平均值。

多列分组再聚合

多列分组聚合时,按照groupbyby参数的顺序,依次进行分组,然后再聚合。

本次的使用的数据包含2024年1月和2月的数据,

我们先按照**"股票代码"分组,再按"月份"**分组,最后汇总信息。

聚合之前,先把日期的格式转换成月的形式:

python 复制代码
data = df.loc[:, ["股票代码", "日期", "开盘", "收盘"]]
data["日期"] = data["日期"].str.slice(0, 7)
data

根据**"股票代码" "日期"来聚合每支股票每个月的 开盘价收盘价**的最大值:

python 复制代码
data.groupby(by=["股票代码", "日期"]).max()

聚合之后的DataFrame,有2Index(索引)。

一次分组多次聚合

聚合汇总信息时,可以一次汇总多个信息,这样分组一次就可以了,不用每次聚合都重复调用groupby去分组。

比如,下面的示例一次汇总出每支股票每个月开盘价收盘价最大值最小值平均值

python 复制代码
data.groupby(by=["股票代码", "日期"]).agg(["mean", "max", "min"])

定制分组的聚合方式

更进一步,我们还可以针对不同的列采用不同的聚合方式。

比如,对开盘价 汇总最大值平均值 ,对收盘价 汇总最小值平均值

python 复制代码
data.groupby(by=["股票代码", "日期"]).agg(
    {
        "开盘": ["max", "mean"],
        "收盘": ["min", "mean"],
    }
)

聚合后重置索引

从上面聚合后数据的截图中,可以发现,聚合之后,分组用的列(比如 ["股票代码", "日期"] )变为索引。

如上所示,聚合之后返回的DataFrame,红色框内的是索引(index),蓝色框内的是列(columns)。

如果,我们希望分组聚合统计之后,分组的列(比如 ["股票代码", "日期"] )仍然作为DataFrame的列,

可以在groupby分组时使用as_index=False参数。

python 复制代码
data.groupby(by=["股票代码", "日期"], as_index=False).agg(
    {
        "开盘": ["max", "mean"],
        "收盘": ["min", "mean"],
    }
)

这样的话,分组的列(比如 ["股票代码", "日期"])就不会成为索引。

总结

总的来说,groupby 函数是 pandas 库中一个非常常用的工具,它大大简化了数据处理和分析的过程,

使得用户能够更高效地洞察和理解数据。

相关推荐
青衫客361 天前
基于 Python 构建的安全 gRPC 服务——TLS、mTLS 与 Casbin 授权实战
python·安全·微服务
-dzk-1 天前
【3DGS复现】Autodl服务器复现3DGS《简单快速》《一次成功》《新手练习复现必备》
运维·服务器·python·计算机视觉·3d·三维重建·三维
摩羯座-185690305941 天前
爬坑 10 年!京东店铺全量商品接口实战开发:从分页优化、SKU 关联到数据完整性闭环
linux·网络·数据库·windows·爬虫·python
ACERT3331 天前
5.吴恩达机器学习—神经网络的基本使用
人工智能·python·神经网络·机器学习
韩立学长1 天前
【开题答辩实录分享】以《基于python的奶茶店分布数据分析与可视化》为例进行答辩实录分享
开发语言·python·数据分析
2401_831501731 天前
Python学习之day03学习(文件和异常)
开发语言·python·学习
可触的未来,发芽的智生1 天前
触摸未来2025.10.06:声之密语从生理构造到神经网络的声音智能革命
人工智能·python·神经网络·机器学习·架构
Zwb2997921 天前
Day 24 - 文件、目录与路径 - Python学习笔记
笔记·python·学习
hui函数1 天前
python全栈(基础篇)——day03:后端内容(字符串格式化+简单数据类型转换+进制的转换+运算符+实战演示+每日一题)
开发语言·后端·python·全栈
动能小子ohhh1 天前
AI智能体(Agent)大模型入门【6】--编写fasteAPI后端请求接口实现页面聊天
人工智能·python·深度学习·ai编程