COUNT进阶(续):超大表去重计数的极致优化

大家好,我是小耶,写功课只是为了我踩过的坑,你们别再踩了!

上周我们讲了COUNT(*)在大表上的近似计数与HyperLogLog。这周继续聊COUNT的进阶话题------​去重计数 ​。你一定遇到过这样的需求:"查一下昨天的独立访客数""统计这周活跃设备量",直接用COUNT(DISTINCT user_id),10亿行表跑了半小时还没出结果,怎么办?

去重计数的两种场景

场景 需求 可接受误差
运营报表、趋势图 DAU、MAU 1-2%
财务、库存、对账 精确金额、订单数 0%

不同场景对精度的要求完全不同。下面的优化手段,按误差从大到小排列。


方案一:近似去重(HyperLogLog)------ 要快,能接受1-2%误差

HyperLogLog是一种概率算法,用固定内存(约16KB)估算去重元素数量。原理:将每个元素哈希,统计哈希值二进制表示中前导零的最大长度,通过这个信息推断去重总数。

适用场景: UV、DAU、独立IP、搜索词去重统计等。

实现方式:

  1. Redis HyperLogLog(最常用)
ini 复制代码
import redis
r = redis.Redis()
for user_id in logs:
    r.pfadd("daily_uv:2026-06-02", user_id)
uv = r.pfcount("daily_uv:2026-06-02")  # 误差1%以内
  1. PostgreSQL + hll扩展
sql 复制代码
CREATE EXTENSION hll;
SELECT hll_cardinality(hll_add_agg(hll_hash_integer(user_id))) FROM logs;

方案二:精确去重,但用索引优化 ------ 要准,也要尽量快

如果必须精确,可以通过索引设计减少扫描量。

技巧1:覆盖索引

COUNT(DISTINCT user_id) 只需要user_id列,如果(user_id)上有索引,InnoDB可以直接扫描索引而不是全表,大大减少I/O。

sql 复制代码
-- 确保user_id有索引
CREATE INDEX idx_user_id ON logs(user_id);
SELECT COUNT(DISTINCT user_id) FROM logs;

技巧2:使用GROUP BY代替DISTINCT

在某些数据库中,GROUP BY + 外层COUNT有时比COUNT(DISTINCT)更快(取决于优化器):

sql 复制代码
SELECT COUNT(*) FROM (SELECT user_id FROM logs GROUP BY user_id) t;

实测对比(1000万行,user_id有索引):

写法 耗时
COUNT(DISTINCT user_id) 12秒
GROUP BY子查询 11秒(差异不大)

技巧3:分桶计数

如果数据分布均匀,可以按某个维度分桶,分别计数后求和。例如按日期分区,每天分别COUNT(DISTINCT)再累加(需要保证桶间无重复)。


方案三:bitmap聚合 ------ 极速精确去重(限低基数场景)

如果去重的列基数很低(比如只有几个值:性别、状态、类型),可以使用bitmap。每个值对应一个bit位,多个值做OR/AND操作极快。

实现方式: 使用PostgreSQL的bitmap扩展,或MySQL的SET类型。

适用场景: 标签系统、权限判断、漏斗分析中的"是否完成某动作"。


方案四:预计算/物化视图 ------ 以空间换时间

对于固定维度的去重统计(如每日DAU),可以提前计算并存储结果,查询时直接读取。

实现方式:

  • 每日定时任务计算前一天的COUNT(DISTINCT user_id)存入统计表
  • 使用物化视图(PostgreSQL支持,MySQL需借助第三方工具)
方案 实时性 存储成本 适用场景
实时COUNT(DISTINCT) 实时 小表或低频查询
HyperLogLog 实时 极低 可接受误差的高频查询
预计算表 非实时(T+1) 固定报表、趋势图
物化视图 准实时(可刷新) 综合报表

优化决策树


真实案例:某APP日活统计

  • 数据量:每日约5000万独立设备ID
  • 要求:实时展示当天DAU(可接受1%误差)
  • 方案:使用Redis HyperLogLog,每条日志pfadd,实时pfcount
  • 结果:内存占用约12KB/天,响应时间<10ms,误差<1.5%

如果要求精确,则采用T+1预计算:凌晨计算前一天的精确COUNT(DISTINCT device_id)存入MySQL,白天查询直接读结果。


总结

去重计数的优化没有"银弹",关键在于根据业务对精度、实时性、成本的要求做出合理选择。HyperLogLog是误差容忍场景的利器,bitmap适合低基数,预计算适合固定报表。掌握了这些方案,你就能在"快"和"准"之间找到最佳平衡点。

小耶在手,SQL 不愁

还有什么想了解的,欢迎留言!小耶一定知无不言言无不尽......我们下次见~

相关推荐
爱喝水的鱼丶1 小时前
SAP-ABAP:SAP 简单报表输出开发系列(共6篇) 第四篇:SAP 报表异常处理机制:数据校验与消息提示规范落地
开发语言·数据库·学习·算法·sap·abap
_1_71 小时前
SQL SERVER闪退问题解决
数据库·sqlserver
ZengLiangYi1 小时前
sql.js WASM 深度解析
javascript·数据库·后端
一 乐2 小时前
人口老龄化社区服务与管理平台|基于springboot+vue的人口老龄化社区服务与管理平台(源码+数据库+文档)
java·数据库·vue.js·spring boot·论文·毕设·人口老龄化社区服务与管理平台
梓䈑2 小时前
【MySQL】表的操作(数据表的创建、查看 和 修改)
数据库·mysql
贺国亚2 小时前
Agent参考架构
架构
小碗羊肉2 小时前
【Redis | 第六篇】Redisson
数据库·redis·缓存