Apache Kylin最简单的解析、了解

官网:Overview | Apache Kylin

一、 Apache Kylin是什么

由中国团队研发具有浓厚的中国韵味,使用神兽麒麟(kylin)为名

的一个OLAP多维数据分析引擎:(据官方给出的数据)

  1. 亚秒级响应(亚秒内查询巨大的hive表)
  2. 支持超大数据集(PB级以上,千亿条数据)
  3. 标准SQL接口、简短易用的即席查询工具
  4. 拥有丰富的工具集成支持标准数据库协议、各种BI分析工具

可伸缩性和高吞吐量:单节点Kylin可实现每秒70个查询,还可以结合Zookeeper分布式协调服务搭建Kylin集群,速度更快。

二、Kylin架构:

三、环境、依赖、配置

Kylin版本对应最低依赖图(官方数据)

环境

  • Hadoop :Kylin 依赖 Hadoop 进行数据存储和计算。
  • Hive :用于数据源的管理和访问。
  • HBase :作为 Kylin 的默认存储引擎。
  • Spark :用于加速 Cube 构建。
  • Kylin :Apache Kylin 的核心服务。

注意:在MySQL中手动创建kylin数据库(官方默认连接mysql设置的是kylin这个数据库)

或更改配置

硬件要求:

Yarn内存设置

Kylin4.0使用Spark作为计算引擎和查询引擎,因此对spark任务运行的yarn容器内存有所要求,要求yarn容器内存不能低于4G,因此需要将Yarn容器内存调为8G,否则kylin启动会报错。 注意:yarn容器内存都调为了8G,所以三台虚拟机内存一定要大于8G,否则Kylin运行会报错,此处建议学者最低要将三台虚拟机内存设置为12G,8G,8G。(电脑内存不能低于32G)

增加ApplicationMaster 资源比例

因为Kylin的查询会生成一个在后台长期运行的Sparder任务,占用Default队列,因此一定要调大此参数,否则Kylin无法正常使用。

需要对 Kylin 进行配置。主要配置文件为:

kylin.properties:Kylin 的核心配置文件,包含元数据存储、查询引擎和存储引擎的配置。

hive-site.xml:Hive 配置文件,Kylin 需要访问 Hive 进行数据抽取。

hbase-site.xml:HBase 配置文件,Kylin 需要访问 HBase 进行数据存储。

相关推荐
itachi-uchiha1 小时前
Docker部署Hive大数据组件
大数据·hive·docker
viperrrrrrrrrr72 小时前
大数据学习(131)-Hive数据分析函数总结
大数据·hive·学习
lifallen3 小时前
Flink checkpoint
java·大数据·算法·flink
Leo.yuan5 小时前
API是什么意思?如何实现开放API?
大数据·运维·数据仓库·人工智能·信息可视化
禺垣5 小时前
知识图谱技术概述
大数据·人工智能·深度学习·知识图谱
后端码匠5 小时前
Spark 单机模式部署与启动
大数据·分布式·spark
疯狂的沙粒7 小时前
如何通过git命令查看项目连接的仓库地址?
大数据·git·elasticsearch
随缘而动,随遇而安7 小时前
第七十四篇 高并发场景下的Java并发容器:用生活案例讲透技术原理
java·大数据·后端
凯禾瑞华实训室建设7 小时前
老年生活照护实训室建设规划:照护质量评估与持续改进实训体系
大数据·人工智能·物联网·ar·vr
静听山水7 小时前
DTS 数据迁移
大数据