首次登录用户是每个user_id在全量日志中event_time最早的记录,需用ROW_NUMBER()按user_id分组、event_time排序取rn=1,不可用MIN聚合或GROUP BY日期直接统计。怎么用 ROW_NUMBER() 识别"首次登录"用户新增用户的本质是:每个用户在全量日志中时间最早的那条记录。不能只靠 MIN(event_time) 聚合后硬算,否则会漏掉同天多个新用户、或把老用户误判为新用户。正确做法是给每个 user_id 按时间排序,取序号为 1 的行:SELECT user_id, DATE(event_time) AS dtFROM ( SELECT user_id, event_time, ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY event_time) AS rn FROM user_event_log) tWHERE rn = 1;必须用 ORDER BY event_time,不是 created_at 或其他字段------只要不是真实行为发生时间,就可能错判首登PARTITION BY user_id 是核心,漏掉就会变成全局排序,完全失效如果表里有脏数据(比如 event_time 为空或为 0),ROW_NUMBER() 会把它们排在最前,得提前 WHERE event_time > '2000-01-01'为什么不能直接 GROUP BY DATE(event_time) 算每日去重因为"每日新增"不是"当天登录的用户数",而是"当天首次出现的用户数"。直接按日期分组再 COUNT(DISTINCT user_id),会把所有当天活跃用户都算进来,包括上周就注册的老用户。常见错误写法: Fotor AI Image Generator Fotor 平台的 AI 图片生成器
相关推荐
一只fish1 小时前
Oracle官方文档翻译《Database Concepts 26ai》第23章-数据库开发者概念Cloud_Shy6181 小时前
解读《Effective Python 3rd Edition》:从练气到老魔(第四章 Item 27 - 29)todoitbo1 小时前
从 MySQL 到 KingbaseES:Database、Schema、User 一次讲透一只小白0001 小时前
【JVM | 第五篇】—— 深入理解垃圾回收机汇五金_1 小时前
交换机箱体材质如何选择?铝合金与钢板有什么区别?asdzx672 小时前
使用 Python 精准提取 Word 文档中的文本与表格某林2122 小时前
ROS 2 与大模型融合实战:从进程连环崩溃到类型安全防御的深度排障复盘勇往直前plus2 小时前
Redis&Python 梳理开源量化GO2 小时前
多品种组合单品种剧烈波动:组合风控先平谁千云2 小时前
100w大表0停机回滚:我们为什么放弃Undo Log,选择表名切换?