Apache Kylin最简单的解析、了解

꧁薄暮꧂2024-12-16 8:20

官网：Overview | Apache Kylin

一、 Apache Kylin是什么？

由中国团队研发具有浓厚的中国韵味，使用神兽麒麟（kylin）为名

的一个OLAP多维数据分析引擎:（据官方给出的数据）

亚秒级响应（亚秒内查询巨大的hive表）
支持超大数据集（PB级以上，千亿条数据）
标准SQL接口、简短易用的即席查询工具
拥有丰富的工具集成支持标准数据库协议、各种BI分析工具

可伸缩性和高吞吐量：单节点Kylin可实现每秒70个查询，还可以结合Zookeeper分布式协调服务搭建Kylin集群，速度更快。

二、Kylin架构：

三、环境、依赖、配置

Kylin版本对应最低依赖图（官方数据）

环境

Hadoop ：Kylin 依赖 Hadoop 进行数据存储和计算。
Hive ：用于数据源的管理和访问。
HBase ：作为 Kylin 的默认存储引擎。
Spark ：用于加速 Cube 构建。
Kylin ：Apache Kylin 的核心服务。

注意：在MySQL中手动创建kylin数据库（官方默认连接mysql设置的是kylin这个数据库）

或更改配置

硬件要求：

Yarn内存设置

Kylin4.0使用Spark作为计算引擎和查询引擎，因此对spark任务运行的yarn容器内存有所要求，要求yarn容器内存不能低于4G，因此需要将Yarn容器内存调为8G，否则kylin启动会报错。注意：yarn容器内存都调为了8G，所以三台虚拟机内存一定要大于8G，否则Kylin运行会报错，此处建议学者最低要将三台虚拟机内存设置为12G，8G，8G。（电脑内存不能低于32G）

增加ApplicationMaster 资源比例

因为Kylin的查询会生成一个在后台长期运行的Sparder任务，占用Default队列，因此一定要调大此参数，否则Kylin无法正常使用。

需要对 Kylin 进行配置。主要配置文件为：

kylin.properties：Kylin 的核心配置文件，包含元数据存储、查询引擎和存储引擎的配置。

hive-site.xml：Hive 配置文件，Kylin 需要访问 Hive 进行数据抽取。

hbase-site.xml：HBase 配置文件，Kylin 需要访问 HBase 进行数据存储。