XL-LightHouse 与 Flink 和 ClickHouse 流式大数据统计系统

一个Flink任务只能并行处理一个或少数几个数据流,而XL-LightHouse一个任务可以并行处理数万个、几十万个数据流;

一个Flink任务只能实现一个或少数几个数据指标,而XL-LightHouse单个任务就能支撑大批量、数以万计的数据指标。

1、XL-LightHouse :

  • 1、再也不需要用 Flink、Spark、ClickHouse 或者基于 Redis 这种臃肿笨重的方案跑数了;
  • 2、再也不需要疲于应付对个人价值提升没有多大益处的数据统计需求了,能够帮助您从琐碎反复的数据统计需求中抽身出来,从而专注于对个人提升、对企业发展更有价值的事情;
  • 3、轻松帮您实现任意细粒度的监控指标,是您监控服务运行状况,排查各类业务数据波动、指标异常类问题的好帮手;
  • 4、培养数据思维,辅助您将所从事的工作建立数据指标体系,量化工作产出,做专业严谨的职场人,创造更大的个人价值;

2、流式统计虽然是属于流式计算的一种计算形式

流式统计无外乎Count运算、Sum运算、Bitcount运算(count distinct)、Max运算、Min运算、Avg运算、Seq运算(时序数据)、Dimens运算(维度划分)、Limit运算(topN/lastN)

3、Flink用于流式统计存在缺陷

3-1、资源利用率低

Flink的资源利用率低要从两个角度来看,一个是集群运行的拓扑结构,另一个是Flink任务执行的特性。

3-2、运算性能低

3-3、接入成本较高

(1)、Flink面向专业的大数据研发人员,大量统计指标的实现需要耗费大量的研发成本。

(2)、由于Flink自身在流式统计领域的基础功能并不完善,所以很多场景下都需要研发人员依据统计任务的数据量、统计周期的粒度、数据倾斜状况等因素进行特定的优化。所以使用Flink实现很多相类似的功能,由于数据量差异、统计周期的不同,程序的实现方式也可能截然不同

3-4、运维成本高、运算资源成本高

对比XL-LightHouse,Flink的运维成本更高,体现在几个方面:

(1)、实现相同的流式统计需求,Flink集群规模要明显大于XL-LightHouse的集群规模,导致运维成本增加。

(2)、由于Flink集群面向专业的研发人员,Flink集群的运转是由集群维护人员和Flink任务的研发人员共同参与,如果集群要进行版本升级、集群扩容、日常维护、数据迁移等操作均需要与研发人员事先沟通、达成默契,很多类似版本升级的操作会涉及相关任务的升级改造。如果集群规模庞大、涉及研发人员、相关任务较多的话,那这个过程也必然会耗费了较大的维护成本

4、ClickHouse用于流式统计存在缺陷

  • ClickHouse适用场景的特点

    (1)单个或较少数量的应用场景,且每个应用场景都有海量的数据;

    (2)业务场景有大量的维度字段,可能需要按照十几个甚至几十个以上的维度随意组合进行多维度即席查询操作;

    (3)业务场景有明细查询的需求;

    (4)不同数据源之间可能有join查询的需求;

  • ClickHouse的缺点

    (1)由于每次查询都需要遍历海量数据,所以并发度支持有限;

    (2)由于系统内存储着海量的明细数据,集群规模庞大、结构复杂,维护成本高昂;

    (3)每次查询都要遍历数据,进行实时统计运算,需要耗费的大量的内存和CPU资源;

    (4)数据接入需要进行各种层面的优化,使用门槛较高、面向专业的大数据研发人员使用;

    (5)接入成本高、维护成本高、服务器成本高,使用门槛高,对中小企业不太友好;

5、XL-LightHouse的特性

(1)可以支持高并发查询统计结果

(2)不支持明细查询,如果想要支持明细查询需要借助于其他工具实现

(3)不支持明细查询,如果想要支持明细查询需要借助于其他工具实现

6、应用场景统计

点击量:

1、每5分钟_点击量

2、每5分钟_各ICON_点击量

3、每小时_点击量

4、每小时_各ICON_点击量

5、每天_总点击量

6、每天_各Tab_总点击量

7、每天_各ICON_总点击量

点击UV:

1、每5分钟_点击UV

2、每小时_点击UV

3、每小时_各ICON_点击UV

4、每天_总点击UV

5、每天_各ICON_总点击UV

支付成功订单数据统计

订单量:

1、每10分钟_订单量

2、每10分钟_各商户_订单量

3、每10分钟_各省份_订单量

4、每10分钟_各城市_订单量

5、每小时_订单量

6、每天_订单量

7、每天_各商户_订单量

8、每天_各省份_订单量

9、每天_各城市_订单量

10、每天_各价格区间_订单量

11、每天_各应用场景_订单量

交易金额:

1、每10分钟_成交金额

2、每10分钟_各商户_成交金额top100

3、每10分钟_各省份_成交金额

4、每10分钟_各城市_成交金额

5、每小时_成交金额

6、每小时_各商户_成交金额

7、每天_成交金额

8、每天_各商户_成交金额

9、每天_各省份_成交金额

10、每天_各城市_成交金额

11、每天_各应用场景_成交金额

下单用户数:

1、每10分钟_下单用户数

2、每10分钟_各商户_下单用户数

3、每10分钟_各省份_下单用户数

4、每10分钟_各城市_下单用户数

5、每小时_下单用户数

6、每天_下单用户数

7、每天_各商户_下单用户数

8、每天_各省份_下单用户数

9、每天_各城市_下单用户数

10、每天_各价格区间_下单用户数

11、每天_各应用场景_下单用户数

项目地址:

https://github.com/xl-xueling/xl-lighthouse

https://github.com/xl-xueling/xl-lighthouse.git

https://gitee.com/mirrors/XL-LightHouse.git

参考文档:

1、项目介绍
2、Git地址
3、交流社区
4、项目设计
5、一键部署
6、XL-Formula使用
7、Web服务操作说明
8、Hello World
9、适用场景
10、版权声明
11、使用反馈
12、依赖组件
相关推荐
狼头长啸李树身1 小时前
眼儿媚·秋雨绵绵窗暗暗
大数据·网络·服务发现·媒体
Json_181790144802 小时前
商品详情接口使用方法和对接流程如下
大数据·json
Data 3172 小时前
Hive数仓操作(十七)
大数据·数据库·数据仓库·hive·hadoop
bubble小拾6 小时前
ElasticSearch高级功能详解与读写性能调优
大数据·elasticsearch·搜索引擎
ZOHO项目管理软件6 小时前
EDM平台大比拼 用户体验与营销效果双重测评
大数据
HyperAI超神经7 小时前
Meta 首个多模态大模型一键启动!首个多针刺绣数据集上线,含超 30k 张图片
大数据·人工智能·深度学习·机器学习·语言模型·大模型·数据集
Hello.Reader9 小时前
TopK算法在大数据重复数据分析中的应用与挑战
大数据·算法·数据分析
数据龙傲天9 小时前
1688商品API接口:电商数据自动化的新引擎
java·大数据·sql·mysql
Elastic 中国社区官方博客9 小时前
Elasticsearch:使用 LLM 实现传统搜索自动化
大数据·人工智能·elasticsearch·搜索引擎·ai·自动化·全文检索
Jason不在家11 小时前
Flink 本地 idea 调试开启 WebUI
大数据·flink·intellij-idea