本文介绍如何在大规模数据集(百万级行、每组15--25行)中,基于 application_id 分组,高效判断每行的 rejected_time 是否等于同组内任意其他行的 selected_time,并生成布尔标记列 user_rejects。 本文介绍如何在大规模数据集(百万级行、每组15--25行)中,基于 `application_id` 分组,高效判断每行的 `rejected_time` 是否等于**同组内任意其他行**的 `selected_time`,并生成布尔标记列 `user_rejects`。在真实业务场景(如信贷审批、招聘流程或订单履约系统)中,常需识别用户是否"先选后拒"------即某次拒绝操作的时间戳,恰好与同一申请(application_id)下另一次被选中的时间戳完全一致。该需求本质是组内跨行时间戳存在性匹配,而非简单自匹配(避免将本行 selected_time == rejected_time 误判),且对性能极为敏感(数据量达百万级,字段超百个)。核心思路是:对每个 application_id 组,提取该组所有非空 selected_time 值构成集合,再逐行检查其 rejected_time 是否落在此集合中。关键在于避免显式循环或 apply 中嵌套遍历,而是利用向量化 isin() 实现 O(1) 查找。以下是完整、可直接运行的解决方案:import pandas as pdimport numpy as np# 确保时间列正确解析为 datetime64ns,自动处理空值/非法格式time_cols = 'selected_time', 'rejected_time'dftime_cols = dftime_cols.apply(pd.to_datetime, errors='coerce')# 定义组内匹配逻辑:当前组的 rejected_time 是否存在于本组非空 selected_time 中def mark_user_rejects(group): # 提取本组所有有效 selected_time(去重 + 去空),转为 Series 便于 isin valid_selected = group'selected_time'.dropna().drop_duplicates() # 向量化判断:每行 rejected_time 是否在 valid_selected 中 return group'rejected_time'.isin(valid_selected)# 按 application_id 分组应用,禁用 group_keys 以提升性能(避免索引冗余)df'user_rejects' = ( df.groupby('application_id', group_keys=False) .apply(mark_user_rejects) .astype(int) # 转为 0/1 整数,节省内存且兼容下游计算)? 为什么高效? Cleanup.pictures 智能移除图片中的物体、文本、污迹、人物或任何不想要的东西
相关推荐
ServBay17 小时前
9 个 Python 第三方库推荐,不用 AI 都好像多出一个团队用户83562907805117 小时前
如何使用 Python 添加和管理 Excel 批注(完整示例)用户83562907805117 小时前
使用 Python 管理 Excel 工作表:创建、复制、删除与重命名SelectDB17 小时前
阶跃星辰基于 SelectDB 构建 PB 级 Agent 可观测平台这个DBA有点耶18 小时前
GROUP BY优化全解:如何写出既不丢数据又飞快的分组查询掉头发的王富贵21 小时前
【StarRocks】极限十分钟入门StarRocksNturmoils1 天前
WHERE 条件别凭习惯写,常用查询先跑一遍荣码1 天前
LangGraph多Agent协作:3个Agent干活比1个强,但我踩了4个坑用户8356290780512 天前
Python 操作 PDF 附件:添加、查看与管理指南Databend2 天前
在 AWS 中国峰会逛了一天,我在 Databend 展台看到了 Agent 数据基础设施的新思路