本文介绍如何在大规模数据集(百万级行、每组15--25行)中,基于 application_id 分组,高效判断每行的 rejected_time 是否等于同组内任意其他行的 selected_time,并生成布尔标记列 user_rejects。 本文介绍如何在大规模数据集(百万级行、每组15--25行)中,基于 `application_id` 分组,高效判断每行的 `rejected_time` 是否等于**同组内任意其他行**的 `selected_time`,并生成布尔标记列 `user_rejects`。在真实业务场景(如信贷审批、招聘流程或订单履约系统)中,常需识别用户是否"先选后拒"------即某次拒绝操作的时间戳,恰好与同一申请(application_id)下另一次被选中的时间戳完全一致。该需求本质是组内跨行时间戳存在性匹配,而非简单自匹配(避免将本行 selected_time == rejected_time 误判),且对性能极为敏感(数据量达百万级,字段超百个)。核心思路是:对每个 application_id 组,提取该组所有非空 selected_time 值构成集合,再逐行检查其 rejected_time 是否落在此集合中。关键在于避免显式循环或 apply 中嵌套遍历,而是利用向量化 isin() 实现 O(1) 查找。以下是完整、可直接运行的解决方案:import pandas as pdimport numpy as np# 确保时间列正确解析为 datetime64ns,自动处理空值/非法格式time_cols = 'selected_time', 'rejected_time'dftime_cols = dftime_cols.apply(pd.to_datetime, errors='coerce')# 定义组内匹配逻辑:当前组的 rejected_time 是否存在于本组非空 selected_time 中def mark_user_rejects(group): # 提取本组所有有效 selected_time(去重 + 去空),转为 Series 便于 isin valid_selected = group'selected_time'.dropna().drop_duplicates() # 向量化判断:每行 rejected_time 是否在 valid_selected 中 return group'rejected_time'.isin(valid_selected)# 按 application_id 分组应用,禁用 group_keys 以提升性能(避免索引冗余)df'user_rejects' = ( df.groupby('application_id', group_keys=False) .apply(mark_user_rejects) .astype(int) # 转为 0/1 整数,节省内存且兼容下游计算)? 为什么高效? Cleanup.pictures 智能移除图片中的物体、文本、污迹、人物或任何不想要的东西
相关推荐
小马爱打代码7 小时前
Redis 集群方案详解:主从复制、哨兵、脑裂、分片集群和哈希槽lifloveyou8 小时前
table接口结构比昨天多敲两行8 小时前
linux 线程概念与控制海南java第二人8 小时前
ClickHouse 稀疏索引深度解析:为什么 OLAP 数据库不用 B-Tree?Litluecat8 小时前
信创迁移:Oracle切换海量数据库,慢sql扫描消失在人海中9 小时前
Oracle的CURRENT REDO丢失,数据丢失风险分析喵了几个咪9 小时前
选择第三方IAM还是自建权限体系?中小型后台系统权限架构决策指南Warson_L9 小时前
class 扩展Elastic 中国社区官方博客10 小时前
Kibana:使用 AI Chat 及 MCP 轻松创建 AI 原生仪表板