ClickHouse配置Hdfs存储数据

文章目录

背景

由于公司初始使用Hadoop这一套,所以希望ClickHouse也能使用Hdfs作为存储

看了下ClickHouse的文档,拿Hdfs举例来说,有两种方式来完成,一种是直接关联Hdfs上的数据文件,比如说TSV格式的文件,这种模式不支持插入数据。第二种是将Hdfs作为存储,可以理解为云存储方式,这篇文章讲解第二种方式的配置

官方文档:External Disks for Storing Data

配置单机

修改config.xml文件,一般路径在/etc/clickhouse-server/config.xml

xml 复制代码
 	<storage_configuration>
        <disks>
            <hdfs>
                <type>hdfs</type>
                <endpoint>hdfs://hdfs1:9000/clickhouse/</endpoint>
            </hdfs>
        </disks>
        <policies>
            <hdfs>
                <volumes>
                    <main>
                        <disk>hdfs</disk>
                    </main>
                </volumes>
            </hdfs>
        </policies>
    </storage_configuration>

    <merge_tree>
        <min_bytes_for_wide_part>0</min_bytes_for_wide_part>
    </merge_tree>

配置后重启

配置HA高可用Hdfs集群

  1. 复制hadoop下的配置文件hdfs-site.xml/etc/clickhouse-server/
  2. 修改config.xml配置文件,将endpoint中的标签内容,替换为cluster
xml 复制代码
        <disks>
            <hdfs>
                <type>hdfs</type>
                <endpoint>hdfs://cluster1/clickhouse/</endpoint>
            </hdfs>
        </disks>

这种方式的配置是没有端口的

  1. 拷贝了hdfs-site.xml文件,但是ClickHouse还不能识别到该文件,所以需要配置在config.xml的配置文件下
xml 复制代码
    <hdfs>
        <libhdfs3_conf>/etc/clickhouse-server/hdfs-site.xml</libhdfs3_conf>
    </hdfs>

这里在官方文档的另外一处有提到

地址:HDFS

配置完成,重启

这里配置集群模式有些折腾,看到之前有讲如果是hdfs-client.xml这种的,可以参考下。中间还设置过环境变量:
How do I use an HDFS engine in HA mode

性能测试

使用hdfs作为外部存储的时候,需要在建表时,设置存储策略,举例如下:

sql 复制代码
CREATE TABLE trait_term
(
	id UUID,
	termName String
)
ENGINE = MergeTree
PRIMARY KEY (id)
ORDER BY id
SETTINGS index_granularity = 1024, storage_policy='hdfs', index_granularity_bytes = 0;

需要添加storage_policy='hdfs', 这样数据就会存储到hdfs中,在hdfs文件系统中查看

查询性能对比:

trait表大概有1700w条数据,这里主要和之前不使用外部存储,使用clickhouse当前机器的存储做对比

统计trait最多的10个trait term

场景 内部存储 hdfs存储
直接查询 0.767s 0.723s
创建视图查询 0.495s 0.471s
子查询优化 0.157s 0.172s

统计性状xxx minValue > 500 0000的数量

场景 内部存储 hdfs存储
直接查询 0.263s 0.353s
子查询优化 0.131s 0.207s
创建视图走索引 0.01s 0.023s
降低稀疏索引粒度 0.007s 0.015s

结论

根据测试结果,hdfs外部存储会比直接内部存储性能差一点点,但是也差不了多少,使用hdfs可以避免单机存储不够的问题,与公司的技术栈也会保持一致

参考文档

clickhouse之HDFS云存储
clickhouse hive/hdfs引擎由于HDFS-HA报错问题解决
How do I use an HDFS engine in HA mode

相关推荐
江畔独步1 小时前
Hive内置集合函数-size,map_keys,map_values,sort_array,array_contains
数据仓库·hive·hadoop
天地风雷水火山泽1 小时前
二百六十五、Hive——目前Hive数仓各层表样例
数据仓库·hive·hadoop
棉花糖灬1 小时前
Hive常用函数
数据仓库·hive·hadoop
mizuhokaga20 小时前
Hive parquet表通过csv文件导入数据
数据仓库·hive·hadoop
全栈弟弟21 小时前
高级大数据开发协会
大数据·数据仓库·hadoop·flink·spark
小王是个弟弟1 天前
ClickHouse-Kafka Engine 正确的使用方式
clickhouse·kafka
lzhlizihang1 天前
Hadoop的一些高频面试题 --- hdfs、mapreduce以及yarn的面试题
大数据·hadoop·hdfs·mapreduce·面试题·yarn
楠奕1 天前
linux hadoop-3.3.6 hbase-2.5.7
linux·hadoop·hbase
学习3人组1 天前
Hadoop分布式集群配置
大数据·hadoop·分布式