XL-LightHouse 与 Flink 和 ClickHouse 流式大数据统计系统

一个Flink任务只能并行处理一个或少数几个数据流,而XL-LightHouse一个任务可以并行处理数万个、几十万个数据流;

一个Flink任务只能实现一个或少数几个数据指标,而XL-LightHouse单个任务就能支撑大批量、数以万计的数据指标。

1、XL-LightHouse :

  • 1、再也不需要用 Flink、Spark、ClickHouse 或者基于 Redis 这种臃肿笨重的方案跑数了;
  • 2、再也不需要疲于应付对个人价值提升没有多大益处的数据统计需求了,能够帮助您从琐碎反复的数据统计需求中抽身出来,从而专注于对个人提升、对企业发展更有价值的事情;
  • 3、轻松帮您实现任意细粒度的监控指标,是您监控服务运行状况,排查各类业务数据波动、指标异常类问题的好帮手;
  • 4、培养数据思维,辅助您将所从事的工作建立数据指标体系,量化工作产出,做专业严谨的职场人,创造更大的个人价值;

2、流式统计虽然是属于流式计算的一种计算形式

流式统计无外乎Count运算、Sum运算、Bitcount运算(count distinct)、Max运算、Min运算、Avg运算、Seq运算(时序数据)、Dimens运算(维度划分)、Limit运算(topN/lastN)

3、Flink用于流式统计存在缺陷

3-1、资源利用率低

Flink的资源利用率低要从两个角度来看,一个是集群运行的拓扑结构,另一个是Flink任务执行的特性。

3-2、运算性能低

3-3、接入成本较高

(1)、Flink面向专业的大数据研发人员,大量统计指标的实现需要耗费大量的研发成本。

(2)、由于Flink自身在流式统计领域的基础功能并不完善,所以很多场景下都需要研发人员依据统计任务的数据量、统计周期的粒度、数据倾斜状况等因素进行特定的优化。所以使用Flink实现很多相类似的功能,由于数据量差异、统计周期的不同,程序的实现方式也可能截然不同

3-4、运维成本高、运算资源成本高

对比XL-LightHouse,Flink的运维成本更高,体现在几个方面:

(1)、实现相同的流式统计需求,Flink集群规模要明显大于XL-LightHouse的集群规模,导致运维成本增加。

(2)、由于Flink集群面向专业的研发人员,Flink集群的运转是由集群维护人员和Flink任务的研发人员共同参与,如果集群要进行版本升级、集群扩容、日常维护、数据迁移等操作均需要与研发人员事先沟通、达成默契,很多类似版本升级的操作会涉及相关任务的升级改造。如果集群规模庞大、涉及研发人员、相关任务较多的话,那这个过程也必然会耗费了较大的维护成本

4、ClickHouse用于流式统计存在缺陷

  • ClickHouse适用场景的特点

    (1)单个或较少数量的应用场景,且每个应用场景都有海量的数据;

    (2)业务场景有大量的维度字段,可能需要按照十几个甚至几十个以上的维度随意组合进行多维度即席查询操作;

    (3)业务场景有明细查询的需求;

    (4)不同数据源之间可能有join查询的需求;

  • ClickHouse的缺点

    (1)由于每次查询都需要遍历海量数据,所以并发度支持有限;

    (2)由于系统内存储着海量的明细数据,集群规模庞大、结构复杂,维护成本高昂;

    (3)每次查询都要遍历数据,进行实时统计运算,需要耗费的大量的内存和CPU资源;

    (4)数据接入需要进行各种层面的优化,使用门槛较高、面向专业的大数据研发人员使用;

    (5)接入成本高、维护成本高、服务器成本高,使用门槛高,对中小企业不太友好;

5、XL-LightHouse的特性

(1)可以支持高并发查询统计结果

(2)不支持明细查询,如果想要支持明细查询需要借助于其他工具实现

(3)不支持明细查询,如果想要支持明细查询需要借助于其他工具实现

6、应用场景统计

点击量:

1、每5分钟_点击量

2、每5分钟_各ICON_点击量

3、每小时_点击量

4、每小时_各ICON_点击量

5、每天_总点击量

6、每天_各Tab_总点击量

7、每天_各ICON_总点击量

点击UV:

1、每5分钟_点击UV

2、每小时_点击UV

3、每小时_各ICON_点击UV

4、每天_总点击UV

5、每天_各ICON_总点击UV

支付成功订单数据统计

订单量:

1、每10分钟_订单量

2、每10分钟_各商户_订单量

3、每10分钟_各省份_订单量

4、每10分钟_各城市_订单量

5、每小时_订单量

6、每天_订单量

7、每天_各商户_订单量

8、每天_各省份_订单量

9、每天_各城市_订单量

10、每天_各价格区间_订单量

11、每天_各应用场景_订单量

交易金额:

1、每10分钟_成交金额

2、每10分钟_各商户_成交金额top100

3、每10分钟_各省份_成交金额

4、每10分钟_各城市_成交金额

5、每小时_成交金额

6、每小时_各商户_成交金额

7、每天_成交金额

8、每天_各商户_成交金额

9、每天_各省份_成交金额

10、每天_各城市_成交金额

11、每天_各应用场景_成交金额

下单用户数:

1、每10分钟_下单用户数

2、每10分钟_各商户_下单用户数

3、每10分钟_各省份_下单用户数

4、每10分钟_各城市_下单用户数

5、每小时_下单用户数

6、每天_下单用户数

7、每天_各商户_下单用户数

8、每天_各省份_下单用户数

9、每天_各城市_下单用户数

10、每天_各价格区间_下单用户数

11、每天_各应用场景_下单用户数

项目地址:

https://github.com/xl-xueling/xl-lighthouse

https://github.com/xl-xueling/xl-lighthouse.git

https://gitee.com/mirrors/XL-LightHouse.git

参考文档:

1、项目介绍
2、Git地址
3、交流社区
4、项目设计
5、一键部署
6、XL-Formula使用
7、Web服务操作说明
8、Hello World
9、适用场景
10、版权声明
11、使用反馈
12、依赖组件
相关推荐
牛马程序员‍35 分钟前
云岚到家项目100问 v1.0
大数据·apache
撸码到无法自拔2 小时前
MATLAB中处理大数据的技巧与方法
大数据·开发语言·matlab
三月七(爱看动漫的程序员)2 小时前
Genetic Prompt Search via Exploiting Language Model Probabilities
大数据·人工智能·算法·语言模型·自然语言处理·prompt
forestsea4 小时前
【Elasticsearch】聚合分析:管道聚合
大数据·elasticsearch·搜索引擎
铭毅天下4 小时前
Elasticsearch 性能测试工具 Loadgen 之 001——部署及应用详解
大数据·测试工具·elasticsearch·搜索引擎·全文检索
喝醉酒的小白4 小时前
批量创建ES索引
大数据·elasticsearch·jenkins
一ge科研小菜鸡5 小时前
大数据治理实战指南:数据质量、合规与治理架构
大数据
金融OG8 小时前
99.16 金融难点通俗解释:营业总收入
大数据·数据库·python·机器学习·金融
Elastic 中国社区官方博客14 小时前
使用 Confluent Cloud 的 Elasticsearch Connector 部署 Elastic Agent
大数据·数据库·elasticsearch·搜索引擎·全文检索·confluent
快乐就好ya14 小时前
Elasticsearch+kibana安装(简单易上手)
大数据·elasticsearch·搜索引擎·全文检索