XL-LightHouse 与 Flink 和 ClickHouse 流式大数据统计系统

一个Flink任务只能并行处理一个或少数几个数据流,而XL-LightHouse一个任务可以并行处理数万个、几十万个数据流;

一个Flink任务只能实现一个或少数几个数据指标,而XL-LightHouse单个任务就能支撑大批量、数以万计的数据指标。

1、XL-LightHouse :

  • 1、再也不需要用 Flink、Spark、ClickHouse 或者基于 Redis 这种臃肿笨重的方案跑数了;
  • 2、再也不需要疲于应付对个人价值提升没有多大益处的数据统计需求了,能够帮助您从琐碎反复的数据统计需求中抽身出来,从而专注于对个人提升、对企业发展更有价值的事情;
  • 3、轻松帮您实现任意细粒度的监控指标,是您监控服务运行状况,排查各类业务数据波动、指标异常类问题的好帮手;
  • 4、培养数据思维,辅助您将所从事的工作建立数据指标体系,量化工作产出,做专业严谨的职场人,创造更大的个人价值;

2、流式统计虽然是属于流式计算的一种计算形式

流式统计无外乎Count运算、Sum运算、Bitcount运算(count distinct)、Max运算、Min运算、Avg运算、Seq运算(时序数据)、Dimens运算(维度划分)、Limit运算(topN/lastN)

3、Flink用于流式统计存在缺陷

3-1、资源利用率低

Flink的资源利用率低要从两个角度来看,一个是集群运行的拓扑结构,另一个是Flink任务执行的特性。

3-2、运算性能低

3-3、接入成本较高

(1)、Flink面向专业的大数据研发人员,大量统计指标的实现需要耗费大量的研发成本。

(2)、由于Flink自身在流式统计领域的基础功能并不完善,所以很多场景下都需要研发人员依据统计任务的数据量、统计周期的粒度、数据倾斜状况等因素进行特定的优化。所以使用Flink实现很多相类似的功能,由于数据量差异、统计周期的不同,程序的实现方式也可能截然不同

3-4、运维成本高、运算资源成本高

对比XL-LightHouse,Flink的运维成本更高,体现在几个方面:

(1)、实现相同的流式统计需求,Flink集群规模要明显大于XL-LightHouse的集群规模,导致运维成本增加。

(2)、由于Flink集群面向专业的研发人员,Flink集群的运转是由集群维护人员和Flink任务的研发人员共同参与,如果集群要进行版本升级、集群扩容、日常维护、数据迁移等操作均需要与研发人员事先沟通、达成默契,很多类似版本升级的操作会涉及相关任务的升级改造。如果集群规模庞大、涉及研发人员、相关任务较多的话,那这个过程也必然会耗费了较大的维护成本

4、ClickHouse用于流式统计存在缺陷

  • ClickHouse适用场景的特点

    (1)单个或较少数量的应用场景,且每个应用场景都有海量的数据;

    (2)业务场景有大量的维度字段,可能需要按照十几个甚至几十个以上的维度随意组合进行多维度即席查询操作;

    (3)业务场景有明细查询的需求;

    (4)不同数据源之间可能有join查询的需求;

  • ClickHouse的缺点

    (1)由于每次查询都需要遍历海量数据,所以并发度支持有限;

    (2)由于系统内存储着海量的明细数据,集群规模庞大、结构复杂,维护成本高昂;

    (3)每次查询都要遍历数据,进行实时统计运算,需要耗费的大量的内存和CPU资源;

    (4)数据接入需要进行各种层面的优化,使用门槛较高、面向专业的大数据研发人员使用;

    (5)接入成本高、维护成本高、服务器成本高,使用门槛高,对中小企业不太友好;

5、XL-LightHouse的特性

(1)可以支持高并发查询统计结果

(2)不支持明细查询,如果想要支持明细查询需要借助于其他工具实现

(3)不支持明细查询,如果想要支持明细查询需要借助于其他工具实现

6、应用场景统计

点击量:

1、每5分钟_点击量

2、每5分钟_各ICON_点击量

3、每小时_点击量

4、每小时_各ICON_点击量

5、每天_总点击量

6、每天_各Tab_总点击量

7、每天_各ICON_总点击量

点击UV:

1、每5分钟_点击UV

2、每小时_点击UV

3、每小时_各ICON_点击UV

4、每天_总点击UV

5、每天_各ICON_总点击UV

支付成功订单数据统计

订单量:

1、每10分钟_订单量

2、每10分钟_各商户_订单量

3、每10分钟_各省份_订单量

4、每10分钟_各城市_订单量

5、每小时_订单量

6、每天_订单量

7、每天_各商户_订单量

8、每天_各省份_订单量

9、每天_各城市_订单量

10、每天_各价格区间_订单量

11、每天_各应用场景_订单量

交易金额:

1、每10分钟_成交金额

2、每10分钟_各商户_成交金额top100

3、每10分钟_各省份_成交金额

4、每10分钟_各城市_成交金额

5、每小时_成交金额

6、每小时_各商户_成交金额

7、每天_成交金额

8、每天_各商户_成交金额

9、每天_各省份_成交金额

10、每天_各城市_成交金额

11、每天_各应用场景_成交金额

下单用户数:

1、每10分钟_下单用户数

2、每10分钟_各商户_下单用户数

3、每10分钟_各省份_下单用户数

4、每10分钟_各城市_下单用户数

5、每小时_下单用户数

6、每天_下单用户数

7、每天_各商户_下单用户数

8、每天_各省份_下单用户数

9、每天_各城市_下单用户数

10、每天_各价格区间_下单用户数

11、每天_各应用场景_下单用户数

项目地址:

https://github.com/xl-xueling/xl-lighthouse

https://github.com/xl-xueling/xl-lighthouse.git

https://gitee.com/mirrors/XL-LightHouse.git

参考文档:

1、项目介绍
2、Git地址
3、交流社区
4、项目设计
5、一键部署
6、XL-Formula使用
7、Web服务操作说明
8、Hello World
9、适用场景
10、版权声明
11、使用反馈
12、依赖组件
相关推荐
PcVue China2 小时前
PcVue + SQL Grid : 释放数据的无限潜力
大数据·服务器·数据库·sql·科技·安全·oracle
Mephisto.java4 小时前
【大数据学习 | HBASE】hbase的读数据流程与hbase读取数据
大数据·学习·hbase
SafePloy安策7 小时前
ES信息防泄漏:策略与实践
大数据·elasticsearch·开源
学术搬运工7 小时前
【珠海科技学院主办,暨南大学协办 | IEEE出版 | EI检索稳定 】2024年健康大数据与智能医疗国际会议(ICHIH 2024)
大数据·图像处理·人工智能·科技·机器学习·自然语言处理
Matrix708 小时前
HBase理论_背景特点及数据单元及与Hive对比
大数据·数据库·hbase
B站计算机毕业设计超人9 小时前
计算机毕业设计Python+大模型农产品价格预测 ARIMA自回归模型 农产品可视化 农产品爬虫 机器学习 深度学习 大数据毕业设计 Django Flask
大数据·爬虫·python·深度学习·机器学习·课程设计·数据可视化
好记性+烂笔头10 小时前
Flink_DataStreamAPI_输出算子Sink
flink
Carl_奕然10 小时前
【大数据算法】MapReduce算法概述之:MapReduce基础模型
大数据·算法·mapreduce
Elastic 中国社区官方博客11 小时前
Elasticsearch 8.16:适用于生产的混合对话搜索和创新的向量数据量化,其性能优于乘积量化 (PQ)
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
飞翔的佩奇11 小时前
ElasticSearch:使用dsl语句同时查询出最近2小时、最近1天、最近7天、最近30天的数量
大数据·elasticsearch·搜索引擎·dsl