Apache Kylin最简单的解析、了解

官网:Overview | Apache Kylin

一、 Apache Kylin是什么

由中国团队研发具有浓厚的中国韵味,使用神兽麒麟(kylin)为名

的一个OLAP多维数据分析引擎:(据官方给出的数据)

  1. 亚秒级响应(亚秒内查询巨大的hive表)
  2. 支持超大数据集(PB级以上,千亿条数据)
  3. 标准SQL接口、简短易用的即席查询工具
  4. 拥有丰富的工具集成支持标准数据库协议、各种BI分析工具

可伸缩性和高吞吐量:单节点Kylin可实现每秒70个查询,还可以结合Zookeeper分布式协调服务搭建Kylin集群,速度更快。

二、Kylin架构:

三、环境、依赖、配置

Kylin版本对应最低依赖图(官方数据)

环境

  • Hadoop :Kylin 依赖 Hadoop 进行数据存储和计算。
  • Hive :用于数据源的管理和访问。
  • HBase :作为 Kylin 的默认存储引擎。
  • Spark :用于加速 Cube 构建。
  • Kylin :Apache Kylin 的核心服务。

注意:在MySQL中手动创建kylin数据库(官方默认连接mysql设置的是kylin这个数据库)

或更改配置

硬件要求:

Yarn内存设置

Kylin4.0使用Spark作为计算引擎和查询引擎,因此对spark任务运行的yarn容器内存有所要求,要求yarn容器内存不能低于4G,因此需要将Yarn容器内存调为8G,否则kylin启动会报错。 注意:yarn容器内存都调为了8G,所以三台虚拟机内存一定要大于8G,否则Kylin运行会报错,此处建议学者最低要将三台虚拟机内存设置为12G,8G,8G。(电脑内存不能低于32G)

增加ApplicationMaster 资源比例

因为Kylin的查询会生成一个在后台长期运行的Sparder任务,占用Default队列,因此一定要调大此参数,否则Kylin无法正常使用。

需要对 Kylin 进行配置。主要配置文件为:

kylin.properties:Kylin 的核心配置文件,包含元数据存储、查询引擎和存储引擎的配置。

hive-site.xml:Hive 配置文件,Kylin 需要访问 Hive 进行数据抽取。

hbase-site.xml:HBase 配置文件,Kylin 需要访问 HBase 进行数据存储。

相关推荐
翱翔的苍鹰15 小时前
实际项目中使用LangChain DeepAgent的完整流程(落地版)
大数据·人工智能·深度学习·语言模型·自然语言处理·langchain
萤丰信息17 小时前
智慧园区系统:赋能园区数字化升级,开启智慧运营新时代
大数据·人工智能·科技·架构·智慧城市·智慧园区
KG_LLM图谱增强大模型18 小时前
Palantir官方揭秘AIP:企业级人工智能平台的端到端架构
大数据·人工智能
姚生18 小时前
Tushare全解析:金融量化分析的数据基石
大数据·python
2501_9481142419 小时前
OpenClaw + 星链4SAPI:打造AI自动化“智能体舰队”,从数据采集到模型调度的终极实战
大数据·人工智能
九河云19 小时前
教育行业上云实践:从在线课堂到智慧校园的架构升级
大数据·运维·人工智能·安全·架构·数字化转型
网络工程小王20 小时前
【大数据技术详解】——Sqoop技术(学习笔记)
大数据·学习·sqoop
IT果果日记20 小时前
K8S+Dinky+Flink管理你的计算资源
大数据·后端·flink
TDengine (老段)20 小时前
TDengine IDMP 组态面板 —— 创建组态
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
SelectDB20 小时前
Apache Doris + SelectDB:定义 AI 时代,实时分析的三大范式
大数据·数据库·数据分析