Pandas 高效实现组内跨行时间戳匹配与布尔标记

本文介绍如何在大规模数据集(百万级行、每组15--25行)中,基于 application_id 分组,高效判断每行的 rejected_time 是否等于同组内任意其他行的 selected_time,并生成布尔标记列 user_rejects。 本文介绍如何在大规模数据集(百万级行、每组15--25行)中,基于 `application_id` 分组,高效判断每行的 `rejected_time` 是否等于**同组内任意其他行**的 `selected_time`,并生成布尔标记列 `user_rejects`。在真实业务场景(如信贷审批、招聘流程或订单履约系统)中,常需识别用户是否"先选后拒"------即某次拒绝操作的时间戳,恰好与同一申请(application_id)下另一次被选中的时间戳完全一致。该需求本质是组内跨行时间戳存在性匹配,而非简单自匹配(避免将本行 selected_time == rejected_time 误判),且对性能极为敏感(数据量达百万级,字段超百个)。核心思路是:对每个 application_id 组,提取该组所有非空 selected_time 值构成集合,再逐行检查其 rejected_time 是否落在此集合中。关键在于避免显式循环或 apply 中嵌套遍历,而是利用向量化 isin() 实现 O(1) 查找。以下是完整、可直接运行的解决方案:import pandas as pdimport numpy as np# 确保时间列正确解析为 datetime64[ns],自动处理空值/非法格式time_cols = ['selected_time', 'rejected_time']df[time_cols] = df[time_cols].apply(pd.to_datetime, errors='coerce')# 定义组内匹配逻辑:当前组的 rejected_time 是否存在于本组非空 selected_time 中def mark_user_rejects(group): # 提取本组所有有效 selected_time(去重 + 去空),转为 Series 便于 isin valid_selected = group['selected_time'].dropna().drop_duplicates() # 向量化判断:每行 rejected_time 是否在 valid_selected 中 return group['rejected_time'].isin(valid_selected)# 按 application_id 分组应用,禁用 group_keys 以提升性能(避免索引冗余)df['user_rejects'] = ( df.groupby('application_id', group_keys=False) .apply(mark_user_rejects) .astype(int) # 转为 0/1 整数,节省内存且兼容下游计算)? 为什么高效? Cleanup.pictures 智能移除图片中的物体、文本、污迹、人物或任何不想要的东西

相关推荐
2501_921960852 小时前
协同本体论:元公理体系、普适演化律则与工程范式统一构建
python·重构·numpy·pandas·scipy
了不起的云计算V2 小时前
从DeepSeek V4适配看国产算力的三个拐点
数据库·人工智能
小锋java12342 小时前
【技术专题】Matplotlib3 Python 数据可视化 - Matplotlib3 绘制热力图(Heatmap)
python
书到用时方恨少!2 小时前
Python 面向对象进阶:多态——同一个接口,千种面孔
开发语言·python·多态·面向对象
AC赳赳老秦2 小时前
OpenClaw实战案例:用Agent实现每日工作日报自动生成+发送
人工智能·python·职场和发展·eclipse·github·deepseek·openclaw
qq_189807032 小时前
html标签如何提升可访问性_aria-label与title区别【指南】
jvm·数据库·python
norq juox2 小时前
MySQL 导出数据
数据库·mysql·adb
qq_349317483 小时前
mysql如何设置定时自动备份脚本_编写shell脚本与cron任务
jvm·数据库·python
952363 小时前
Spring IoC&DI
java·数据库·spring