mysql distinct慢

select a , count(distinct b) cn from t

如果统计是死的或者实时性要求没这么高,那么可以用各种手段做缓存。

如果统计是实时的并且数据量不大,几十万的数据量

Stream API一行式(Java 8+)

css 复制代码
Map<String, Long> result = dataList.stream()
    .collect(Collectors.groupingBy(
        Vo::getA,
        Collectors.mapping(
            Vo::getB,
            Collectors.collectingAndThen(
                Collectors.toSet(),
                Set::size
            )
        )
    ));

并行处理版(大数据量)

css 复制代码
Map<String, Integer> result = dataList.parallelStream()
    .collect(
        Collectors.groupingByConcurrent(
            Vo::getA,
            Collectors.mapping(
                Vo::getB,
                Collectors.toSet()
            )
        )
    )
    .entrySet().stream()
    .collect(Collectors.toMap(
        Map.Entry::getKey,
        e -> e.getValue().size()
    ));

如果要求实时统计数据量又很大,几千万甚至过亿数据量, 上 Elasticsearch

如果要求实时统计数据量更大,过亿甚至接近无限,上Flink

相关推荐
庞轩px几秒前
线程池核心参数与拒绝策略深度解析
java·jvm·数据库
油丶酸萝卜别吃1 分钟前
MySQL 事务机制深度解析:从 ACID 到底层实现
数据库·mysql
xcLeigh4 分钟前
Oracle 迁移深度复盘:多数据库选型决策全解析
大数据·数据库·sql·oracle·数据迁移·数据管理
王仲肖10 分钟前
PostgreSQL pageinspect 插件深度解析
数据库·postgresql
云边有个稻草人12 分钟前
【MySQL】第十四节—事务:从基础概念到隔离性理论与实践 | 详解
数据库·mysql·事务·隔离级别·事务的隔离性·事务提交方式
干啥啥不行,秃头第一名12 分钟前
Python深度学习入门:TensorFlow 2.0/Keras实战
jvm·数据库·python
FL4m3Y4n28 分钟前
redis的主从同步与对象模型
数据库·redis·缓存
Mr.456731 分钟前
JDK17+Druid+SpringBoot3+ShardingSphere5 多表分库分表完整实践(MySQL+PostgreSQL)【生产优化版】
数据库·spring boot·后端