hyperloglog

知识即是力量ol

亿级数据下的基数统计：从 Set 到 HyperLogLog 的进阶实战在移动互联网的业务场景中，我们经常面临“海量数据”统计的挑战。无论是统计 APP 的日活/月活、页面的独立访客（UV）、搜索词条数还是注册 IP 数，其核心都是一个典型的数学问题：基数统计（Cardinality Counting），即统计一个集合中不重复元素的个数。

Redis - 使用 Redis HyperLogLog 进行高效基数统计在数据分析和监控系统中，基数统计（即统计唯一元素数量）是一个常见但资源密集型的任务。传统方法在处理大规模数据时面临内存消耗大和计算成本高的问题。Redis 的 HyperLogLog (HLL) 数据结构以极小内存占用（约 12KB）提供接近准确的基数估计，标准误差仅约 0.81%。

【redis】数据类型之hyperloglogRedis的HyperLogLog（HLL）是一种高效的概率数据结构，也是一种基于字符串的数据结构，用于估计大数据集的唯一元素数量（基数统计）。它通过极低的内存占用（约 12KB）实现接近线性的时间复杂度，适用于海量数据去重计数场景（如统计独立访客数），但需容忍约0.81%的标准误差。

滚雪球学Redis[2.6讲]：位图（Bitmap）与HyperLogLog在互联网技术的飞速发展中，数据量呈指数级增长。如何高效地存储、处理和分析大规模数据，成为了当下最重要的技术挑战之一。Redis作为一种高性能的键值数据库，因其丰富的数据结构和极高的操作效率，成为了解决大数据问题的核心工具之一。在上期【2.5 哈希（Hash）】中，我们介绍了Redis的哈希数据结构及其在存储对象属性中的使用。然而，在面对更为复杂的业务场景时，Redis的基础数据类型显得不够灵活或高效。为此，Redis还提供了一些特殊数据类型来满足更加复杂的需求，其中位图（Bitmap）和HyperLogL

程序员小潘

HyperLogLog算法现在很多站点基本都有统计 PV 和 UV 的需求，PV 的统计很简单，在 Redis 里面维护一个计数器，页面每访问一次计数器就 +1，获取 PV 就是读取计数器的值。相比之下，UV 的统计就比较麻烦了，因为要对用户去重，UV 统计其实就是基数统计，最简单的做法就是记录下集合中所有不重复的元素。比如，你可以用 Set 来统计，Set 不会存储重复的元素，用户每次访问都把 UserID 写入 Set 集合，最终调用 SCARD 命令获取集合元素数量即可。

Redis HyperLogLog的使用使用Redis HyperLogLog非常简单，只需要执行PFADD命令将元素添加到HyperLogLog中，然后使用PFCOUNT命令计算基数。例如，可以使用以下命令将元素a、b、c添加到名为myHyperLogLog的HyperLogLog中，然后使用PFCOUNT命令计算基数：

我是有底线的