Apache Kylin最简单的解析、了解

官网:Overview | Apache Kylin

一、 Apache Kylin是什么

由中国团队研发具有浓厚的中国韵味,使用神兽麒麟(kylin)为名

的一个OLAP多维数据分析引擎:(据官方给出的数据)

  1. 亚秒级响应(亚秒内查询巨大的hive表)
  2. 支持超大数据集(PB级以上,千亿条数据)
  3. 标准SQL接口、简短易用的即席查询工具
  4. 拥有丰富的工具集成支持标准数据库协议、各种BI分析工具

可伸缩性和高吞吐量:单节点Kylin可实现每秒70个查询,还可以结合Zookeeper分布式协调服务搭建Kylin集群,速度更快。

二、Kylin架构:

三、环境、依赖、配置

Kylin版本对应最低依赖图(官方数据)

环境

  • Hadoop :Kylin 依赖 Hadoop 进行数据存储和计算。
  • Hive :用于数据源的管理和访问。
  • HBase :作为 Kylin 的默认存储引擎。
  • Spark :用于加速 Cube 构建。
  • Kylin :Apache Kylin 的核心服务。

注意:在MySQL中手动创建kylin数据库(官方默认连接mysql设置的是kylin这个数据库)

或更改配置

硬件要求:

Yarn内存设置

Kylin4.0使用Spark作为计算引擎和查询引擎,因此对spark任务运行的yarn容器内存有所要求,要求yarn容器内存不能低于4G,因此需要将Yarn容器内存调为8G,否则kylin启动会报错。 注意:yarn容器内存都调为了8G,所以三台虚拟机内存一定要大于8G,否则Kylin运行会报错,此处建议学者最低要将三台虚拟机内存设置为12G,8G,8G。(电脑内存不能低于32G)

增加ApplicationMaster 资源比例

因为Kylin的查询会生成一个在后台长期运行的Sparder任务,占用Default队列,因此一定要调大此参数,否则Kylin无法正常使用。

需要对 Kylin 进行配置。主要配置文件为:

kylin.properties:Kylin 的核心配置文件,包含元数据存储、查询引擎和存储引擎的配置。

hive-site.xml:Hive 配置文件,Kylin 需要访问 Hive 进行数据抽取。

hbase-site.xml:HBase 配置文件,Kylin 需要访问 HBase 进行数据存储。

相关推荐
奥顺1 小时前
从零开始:PHP基础教程系列-第10篇:错误处理与调试技巧
大数据·mysql·开源·php
知识分享小能手3 小时前
Java学习教程,从入门到精通,Java Stack(堆栈)语法知识点及语法知识点(58)
java·大数据·开发语言·学习·intellij-idea·java后端·java开发
xyz20113 小时前
Flink State面试题和参考答案-(上)
大数据·面试·flink
爬台阶的蚂蚁4 小时前
ES倒排索引实现? ES 索引文档过程?ES并发下读写一致?
大数据·elasticsearch·搜索引擎
代码欢乐豆5 小时前
NoSQL大数据存储技术测试(7)键值对数据库Redis和其他NoSQL数据库
大数据·数据库·nosql
Ekine7 小时前
【Flink-scala】DataStream编程模型之延迟数据处理
大数据·flink·scala
CodeCraft Studio14 小时前
什么是定性数据分析?有哪些定性数据分析技术及应用实践?
大数据·人工智能·数据分析
ssxueyi14 小时前
Flink是什么?Flink技术介绍
大数据·flink
Lyqfor15 小时前
Apache Spark 的基本概念和在大数据分析中的应用
大数据·spark·apache