官网:Overview | Apache Kylin
一、 Apache Kylin是什么 ?
由中国团队研发具有浓厚的中国韵味,使用神兽麒麟(kylin)为名
的一个OLAP多维数据分析引擎:(据官方给出的数据)
- 亚秒级响应(亚秒内查询巨大的hive表)
- 支持超大数据集(PB级以上,千亿条数据)
- 标准SQL接口、简短易用的即席查询工具
- 拥有丰富的工具集成支持标准数据库协议、各种BI分析工具
可伸缩性和高吞吐量:单节点Kylin可实现每秒70个查询,还可以结合Zookeeper分布式协调服务搭建Kylin集群,速度更快。
二、Kylin架构:
三、环境、依赖、配置
Kylin版本对应最低依赖图(官方数据)
环境
- Hadoop :Kylin 依赖 Hadoop 进行数据存储和计算。
- Hive :用于数据源的管理和访问。
- HBase :作为 Kylin 的默认存储引擎。
- Spark :用于加速 Cube 构建。
- Kylin :Apache Kylin 的核心服务。
注意:在MySQL中手动创建kylin数据库(官方默认连接mysql设置的是kylin这个数据库)
或更改配置
硬件要求:
Yarn内存设置
Kylin4.0使用Spark作为计算引擎和查询引擎,因此对spark任务运行的yarn容器内存有所要求,要求yarn容器内存不能低于4G,因此需要将Yarn容器内存调为8G,否则kylin启动会报错。 注意:yarn容器内存都调为了8G,所以三台虚拟机内存一定要大于8G,否则Kylin运行会报错,此处建议学者最低要将三台虚拟机内存设置为12G,8G,8G。(电脑内存不能低于32G)
增加ApplicationMaster 资源比例
因为Kylin的查询会生成一个在后台长期运行的Sparder任务,占用Default队列,因此一定要调大此参数,否则Kylin无法正常使用。
需要对 Kylin 进行配置。主要配置文件为:
kylin.properties:Kylin 的核心配置文件,包含元数据存储、查询引擎和存储引擎的配置。
hive-site.xml:Hive 配置文件,Kylin 需要访问 Hive 进行数据抽取。
hbase-site.xml:HBase 配置文件,Kylin 需要访问 HBase 进行数据存储。