Pandas DataFrame 分组聚合中处理 JSON 列的高效方法

当对包含 json(字典/列表)类型列的 dataframe 进行 groupby 时,因字典不可哈希会报错;本文介绍无需序列化/反序列化即可安全、高效完成分组聚合的推荐方案。 当对包含 json(字典/列表)类型列的 dataframe 进行 groupby 时,因字典不可哈希会报错;本文介绍无需序列化/反序列化即可安全、高效完成分组聚合的推荐方案。在 Pandas 中,对含嵌套结构(如字典、列表)的列执行 groupby 操作时,常遇到 TypeError: unhashable type: 'dict' 错误------这是因为 groupby 默认将分组键视为哈希对象,而 Python 字典和列表是可变且不可哈希的。虽然将 JSON 列临时转为字符串(json.dumps)再分组是一种常见 workaround,但该方法存在明显缺陷:引入额外的序列化开销、可能因浮点精度或键序差异导致逻辑不等价的 JSON 被判为不同键、且需手动管理来回转换,易出错且可读性差。更专业、更健壮的解决方案是:避免将 JSON 列作为分组键,而是将其作为被聚合的值,并选用语义明确、无副作用的聚合函数(如 'first'、'last' 或自定义函数)。只要同一分组内 JSON 内容逻辑一致(如示例中两行 json 完全相同),直接取首个即可保留原始结构,且完全规避哈希问题。以下为推荐实现:import pandas as pdimport json# 构造示例数据json_data = { "employees": [ {"name": "Shyam", "email": "shyam@example.com"}, {"name": "Bob", "email": "bob@example.com"}, {"name": "Jai", "email": "jai@example.com"}, ]}df = pd.DataFrame({ "key": ["A", "A"], "val": [1, 2], "json": [json_data, json_data] # 注意:两行内容完全相同})# ? 推荐做法:以 'key' 为分组键,对 'val' 聚合为列表,对 'json' 取首个(保证结构完整)df_grouped = df.groupby("key").agg({ "val": list, "json": "first" # 安全、高效、保持原生类型}).reset_index()print(df_grouped)输出结果: 文小言 百度旗下新搜索智能助手,有问题,问小言。

相关推荐
qq_424098562 小时前
MySQL高负载下查询中断怎么解决_增加系统内存与调整参数
jvm·数据库·python
2301_773553622 小时前
SQL中如何处理多维数据的查询:复合索引与SELECT编写
jvm·数据库·python
大江东去浪淘尽千古风流人物2 小时前
【cuVSLAM】项目解析:一套偏工程实战的 GPU 紧耦合视觉惯性 SLAM
数据库·人工智能·python·机器学习·oracle
解救女汉子2 小时前
Layui表格如何使用第三方插件实现树形展示
jvm·数据库·python
穗余2 小时前
Rust——println!后面的感叹号什么意思【宏】
开发语言·python·rust
MegaDataFlowers2 小时前
使用SpringBoot+MyBatis+MySQL完成后端的数据库增删改查(CRUD)操作
数据库·spring boot·mybatis
oradh2 小时前
Oracle数据库视图概述
数据库·oracle·数据库视图·oracle基础·oracle入门
a9511416422 小时前
Python字典底层实现_dict哈希结构解析
jvm·数据库·python
LiAo_1996_Y2 小时前
MongoDB中什么是Hashed Shard Key的哈希冲突_哈希函数的分布均匀性分析
jvm·数据库·python