Apache Kylin最简单的解析、了解

官网:Overview | Apache Kylin

一、 Apache Kylin是什么

由中国团队研发具有浓厚的中国韵味,使用神兽麒麟(kylin)为名

的一个OLAP多维数据分析引擎:(据官方给出的数据)

  1. 亚秒级响应(亚秒内查询巨大的hive表)
  2. 支持超大数据集(PB级以上,千亿条数据)
  3. 标准SQL接口、简短易用的即席查询工具
  4. 拥有丰富的工具集成支持标准数据库协议、各种BI分析工具

可伸缩性和高吞吐量:单节点Kylin可实现每秒70个查询,还可以结合Zookeeper分布式协调服务搭建Kylin集群,速度更快。

二、Kylin架构:

三、环境、依赖、配置

Kylin版本对应最低依赖图(官方数据)

环境

  • Hadoop :Kylin 依赖 Hadoop 进行数据存储和计算。
  • Hive :用于数据源的管理和访问。
  • HBase :作为 Kylin 的默认存储引擎。
  • Spark :用于加速 Cube 构建。
  • Kylin :Apache Kylin 的核心服务。

注意:在MySQL中手动创建kylin数据库(官方默认连接mysql设置的是kylin这个数据库)

或更改配置

硬件要求:

Yarn内存设置

Kylin4.0使用Spark作为计算引擎和查询引擎,因此对spark任务运行的yarn容器内存有所要求,要求yarn容器内存不能低于4G,因此需要将Yarn容器内存调为8G,否则kylin启动会报错。 注意:yarn容器内存都调为了8G,所以三台虚拟机内存一定要大于8G,否则Kylin运行会报错,此处建议学者最低要将三台虚拟机内存设置为12G,8G,8G。(电脑内存不能低于32G)

增加ApplicationMaster 资源比例

因为Kylin的查询会生成一个在后台长期运行的Sparder任务,占用Default队列,因此一定要调大此参数,否则Kylin无法正常使用。

需要对 Kylin 进行配置。主要配置文件为:

kylin.properties:Kylin 的核心配置文件,包含元数据存储、查询引擎和存储引擎的配置。

hive-site.xml:Hive 配置文件,Kylin 需要访问 Hive 进行数据抽取。

hbase-site.xml:HBase 配置文件,Kylin 需要访问 HBase 进行数据存储。

相关推荐
贝多芬也爱敲代码9 分钟前
如何减小ES和mysql的同步时间差
大数据·mysql·elasticsearch
异次元的星星1 小时前
智慧新零售时代:施易德系统平衡技术与人力,赋能门店运营
大数据·零售
深思慎考2 小时前
ElasticSearch与Kibana 入门指南(7.x版本)
大数据·elasticsearch·jenkins
银行数字化转型导师坚鹏3 小时前
如何设计优秀的企业微信私域运营实战培训方案
大数据·python·企业微信
悠闲蜗牛�3 小时前
人工智能时代下的全栈开发:整合AI、大数据与云原生的实践策略
大数据·人工智能·云原生
ml魔力信息5 小时前
活体检测与防伪技术的安全与隐私分析
大数据·人工智能·安全·隐私保护·生物识别·活体检测
数据要素X6 小时前
寻梦数据空间 | 架构篇:从概念到落地的技术实践与突破性创新
大数据·运维·数据仓库·微服务·数据治理·数据中台·可信数据空间
IT学长编程7 小时前
计算机毕业设计 基于EChants的海洋气象数据可视化平台设计与实现 Python 大数据毕业设计 Hadoop毕业设计选题【附源码+文档报告+安装调试】
大数据·hadoop·python·毕业设计·课程设计·毕业论文·海洋气象数据可视化平台
呆呆小金人7 小时前
SQL入门: HAVING用法全解析
大数据·数据库·数据仓库·sql·数据库开发·etl·etl工程师
Elastic 中国社区官方博客9 小时前
如何减少 Elasticsearch 集群中的分片数量
大数据·数据库·elasticsearch·搜索引擎·全文检索