黑马点评(十二) -- UV统计

一 . UV统计-HyperLogLog

首先我们搞懂两个概念:

  • UV:全称Unique Visitor,也叫独立访客量,是指通过互联网访问、浏览这个网页的自然人。1天内同一个用户多次访问该网站,只记录1次。

  • PV:全称Page View,也叫页面访问量或点击量,用户每访问网站的一个页面,记录1次PV,用户多次打开页面,则记录多次PV。往往用来衡量网站的流量。

通常来说UV会比PV大很多,所以衡量同一个网站的访问量,我们需要综合考虑很多因素,所以我们只是单纯的把这两个值作为一个参考值

UV统计在服务端做会比较麻烦,因为要判断该用户是否已经统计过了,需要将统计过的用户信息保存。但是如果每个访问的用户都保存到Redis中,数据量会非常恐怖,那怎么处理呢?

Hyperloglog(HLL)是从Loglog算法派生的概率算法,用于确定非常大的集合的基数,而不需要存储其所有值。相关算法原理大家可以参考:https://juejin.cn/post/6844903785744056333#heading-0 Redis中的HLL是基于string结构实现的,单个HLL的内存永远小于16kb内存占用低 的令人发指!作为代价,其测量结果是概率性的,有小于0.81%的误差。不过对于UV统计来说,这完全可以忽略。

可以发现加入重复元素,总数还是不变,那么这就可以用来做UV统计;

二 . 测试百万数据的统计

测试思路:我们直接利用单元测试,向HyperLogLog中添加100万条数据,看看内存占用和统计效果如何

先查看redis内存占用 :

测试 :

复制代码
    @Test
    void testHyperLogLog(){
        // 旧  922368
        String[] values = new String[1000] ;
        int j = 0 ;
        for(int i=0;i<1000000;i++){
            j = i % 1000 ;
            values[j] = "user_" + i ;
            if(j == 999){
                // 发送到redis
                stringRedisTemplate.opsForHyperLogLog().add("hl2",values) ;
            }
        }
        // 统计数量 : 
        Long count = stringRedisTemplate.opsForHyperLogLog().size("hl2") ;
        System.out.println("count = " + count);
    }

可以发现误差很小 ;

最后占用也就只有14kb ;

总结 : 经过测试:我们会发生他的误差是在允许范围内,并且内存占用极小

相关推荐
砍材农夫1 天前
python环境|pip|uv|venv|Conda区别
后端·python·conda·pip·uv
jingqiulyue2 天前
uv sync 找不到uv怎么办
uv
love530love2 天前
2026年终极防坑指南:基于 EPGF 架构彻底“本地化” UV 环境与工具
人工智能·windows·python·架构·devops·uv·epgf
砍材农夫3 天前
python 如何一次性安装项目所有依赖包(pip和uv)
开发语言·python·pip·uv
文创工作室4 天前
三维模型展UV软件 RizomUV Virtual Space 2022.0.11 中文汉化
uv·rizomuv
SHIPKING3935 天前
【UV】从入门到实战
uv
GDAL5 天前
使用 uv 管理 Python 版本
python·uv·版本
CG_MAGIC6 天前
从光影到物理渲染:Substance Sampler 照片转材质
3d·材质·贴图·uv·建模教程·渲云渲染
GDAL7 天前
uv 完整教程:下一代 Python 包管理工具
python·uv
kke_889 天前
一年12个月,小程序UV的季节性波动规律
大数据·小程序·uv