基于 Redis 的 HyperLogLog 实现了 UV 的统计

文章目录

    • 前言
    • [HyperLogLog 简介](#HyperLogLog 简介)
    • [HyperLogLog 的工作原理](#HyperLogLog 的工作原理)
    • 例子
    • 总结

前言

在现代网站开发中,用户行为分析是一个非常重要的环节。其中,UV(Unique Visitor,独立访客)PV(Page View,页面浏览量)是衡量网站流量用户活跃度的关键指标。UV 指的是通过互联网访问网站的自然人数量,通常一个用户在一定时间内的多次访问只计作一次;而 PV 则指的是用户访问网站的页面次数,无论是否来自同一用户,每次访问都会计入。

HyperLogLog 简介

HyperLogLog 是一种用于基数估计的概率性数据结构,可以高效地估算集合中唯一元素的数量(基数)。与传统的基数统计方法(如使用哈希集合)相比,HyperLogLog 能在使用极少内存的情况下提供相对高精度的基数估计。它特别适合在大数据和高并发的场景中使用,如网站的 UV(独立访客数)统计。

HyperLogLog 是一种高效的算法,用来估计集合中有多少个不同的元素

局限:

  • 误差:存在约 0.81% 的误差率,对于需要精确统计的场景不适用。
  • 不可取出原始数据:一旦元素被插入 HyperLogLog,就无法检索具体的元素,只能提供基数的估计。

HyperLogLog 的工作原理

哈希映射:HyperLogLog 使用哈希函数将每个输入元素转换成一个长整数(就像把名字转换成一个很长的号码),形成一串伪随机的二进制字符串。这样做的目的是为了确保所有元素被随机分布,而不是集中在某些地方。哈希函数的均匀性保证了每个元素有相同的概率被分配到任何一个位置。

前导零计数:对于每个哈希后的号码,HyperLogLog 会查看它的二进制表示(用 0 和 1 组成的串),并数出从左边开始有多少个连续的 0。前导零越多,说明这个元素在一个大范围内是很独特的。简单来说,前导零的数量间接反映了集合中有多少不同的元素。

分桶和调和平均:为了更准确地估计不同元素的数量,HyperLogLog 把这些哈希值分配到多个桶(想象成多个小盒子)。每个桶会记录它见到的哈希值中最多前导零的数量。然后,HyperLogLog 会用一种叫做"调和平均"的数学方法来综合所有桶的信息,从而估算出不同元素的总数。

误差控制:虽然 HyperLogLog 使用的是一种概率算法(不是完全精确),但它的误差率非常小,大约只有 0.81%。在大多数实际应用中,比如统计网站的独立访客数量(UV),这个误差是可以接受的。同时,相比于传统方法,HyperLogLog 只需要很少的内存,就可以处理非常多的数据。

例子

注解

@TrackPageView 注解可以加在控制器(Controller)的方法上,用于指定需要统计 PV 和 UV 的页面或模块。通过在 Controller 方法上使用这个注解,AOP 切面可以拦截请求,自动进行页面访问的统计。

java 复制代码
@Target({ ElementType.PARAMETER, ElementType.METHOD })
@Retention(RetentionPolicy.RUNTIME)
@Documented
public @interface TrackPageView {
    String pageName() default ""; // 用于指定页面或模块的名称
}

切面类

java 复制代码
@Component
@Aspect
public class SysAspect {

    @Autowired
    private StatisticsService statisticsService;

    @Pointcut("@annotation(com.example.hac.annotation.TrackPageView)")
    private void pointcut() {}

    @Around("pointcut()")
    public Object around(ProceedingJoinPoint joinPoint) throws Throwable {
        // 继续执行原始方法
        Object result = joinPoint.proceed();

        // 获取切入点方法的签名
        MethodSignature signature = (MethodSignature) joinPoint.getSignature();
        Method method = signature.getMethod();

        // 从方法中获取 TrackPageView 注解
        TrackPageView trackPageView = method.getAnnotation(TrackPageView.class);

        if (trackPageView != null) {
            String userId = UserContext.getUser();
            String pageName = trackPageView.pageName(); // 获取注解中的页面名称

            // 记录 PV 和 UV
            statisticsService.recordPageView(userId, pageName);
        }

        return result;
    }
}

redis统计

java 复制代码
@Ser**加粗样式**vice
public class StatisticsService {

    @Autowired
    private StringRedisTemplate redisTemplate;

    private static final String UV_KEY_PREFIX = "uv:";
    private static final String PV_KEY_PREFIX = "pv:";

    public void recordPageView(String userId, String pageName) {
        String pvKey = PV_KEY_PREFIX + pageName;
        String uvKey = UV_KEY_PREFIX + pageName;

        // 记录 PV
        redisTemplate.opsForValue().increment(pvKey, 1);

        // 记录 UV(使用 HyperLogLog 统计唯一用户)
        redisTemplate.opsForHyperLogLog().add(uvKey, userId);
    }

    public long getPageViews(String pageName) {
        String pvKey = PV_KEY_PREFIX + pageName;
        String pvCount = redisTemplate.opsForValue().get(pvKey);
        return pvCount != null ? Long.parseLong(pvCount) : 0;
    }

    public long getUniqueVisitors(String pageName) {
        String uvKey = UV_KEY_PREFIX + pageName;
        return redisTemplate.opsForHyperLogLog().size(uvKey);
    }
}

ps: 可以通过修改 Redis 的 key 来按时间单位(例如每天)统计数据。每天的数据可以定时同步到数据库中,以便持久化和后续分析。当需要查看历史统计数据时,可以直接从数据库中查询。

使用:

java 复制代码
@RestController
@RequestMapping(value = "/api")
public class TestController {
    @Autowired
    public TestService service;

    @TrackPageView(pageName = "home")
    @GetMapping(value = "/test")
    public int test() {
        return service.test();
    }
}

结果:

我登录访问了两次,所以pv为2,同一个用户,所以uv为1

总结

为了有效地统计网站的访问情况,我们可以使用 Redis 提供的 HyperLogLog 数据结构来统计 UV(独立访客数),并使用 Redis 的 String 类型来统计 PV(页面访问次数)。


相关推荐
曹牧1 小时前
C#:主线程能够捕获到子线程中的异常
开发语言·数据库·c#
朝阳5812 小时前
MongoDB 副本集从零搭建到生产可用
数据库·mongodb
雨辰AI2 小时前
SpringBoot3 整合达梦 DM9 超详细入门实战|从零搭建可直接上线
数据库·微服务·架构·政务
我是一颗柠檬2 小时前
【MySQL全面教学】MySQL性能优化实战Day13(2026年)
数据库·后端·sql·mysql·性能优化·database
AI人工智能+电脑小能手3 小时前
【大白话说Java面试题 第84题】【Mysql篇】第14题:为什么用 InnoDB 存储引擎的表建议用整型的自增主键?
java·开发语言·数据库·mysql·面试
张彦峰ZYF3 小时前
检索增强生成(RAG)系统的基础:全面深入矢量数据库
数据库·大模型·rag
Elastic 中国社区官方博客4 小时前
我们如何在 Elasticsearch Serverless 上将向量搜索吞吐量提升一倍
大数据·数据库·人工智能·elasticsearch·搜索引擎·云原生·serverless
一 乐4 小时前
高校实习信息发布网站|基于Spring Boot的高校实习信息发布网站的设计与实现(源码+数据库+文档)
java·数据库·spring boot·后端·论文·毕设·高校实习信息发布网站
zgl_200537794 小时前
源代码:跨数据库通用SQL语法解析与标注拆解
大数据·数据库·数据仓库·sql·etl·源代码管理
雪度娃娃5 小时前
存储器层次结构——磁盘硬盘存储
服务器·网络·数据库·计算机组成原理