Clickhouse存算分离的思考

Exploring storage and computing separation for ClickHouse - JuiceFS Blog

ClickHouse 存算分离改造:小红书自研云原生数据仓库实践

唯品会翻牌ClickHouse后,实现百亿级数据自助分析_语言 & 开发_dbaplus社群_InfoQ精选文章

在思考如何实现存算分离,感觉可以像JuiceFS利用多盘存储隔离资源。

多盘配置

XML 复制代码
<path>/var/lib/clickhouse/</path>

<storage_configuration>
    <disks>
        <disk_name_1>
            <path>/mnt/A123456/data/</path>
        </disk_name_1>
    </disks>
    <policies>
        <policy_name_1>
                <volumes>
                        <volume_name_0>
                                 <disk>disk_name_1</disk>
                        </volume_name_0>
                </volumes>
        </policy_name_1>
    </policies>
</storage_configuration>

但是还有个位置,zk的多副本配置了怎么弄,还有就是如何读data。

查看存储策略

select policy_name,volume_name,disks from system.storage_policies

bash 复制代码
┌─policy_name───┬─volume_name───┬─disks───────────┐
│ default       │ default       │ ['default']     │
│ policy_name_1 │ volume_name_0 │ ['disk_name_1'] │
└───────────────┴───────────────┴─────────────────┘

生成mergeTree表写数据

XML 复制代码
CREATE TABLE myFirstReplacingMT
(
    `key` Int64,
    `someCol` String,
    `eventTime` DateTime
)
ENGINE = ReplacingMergeTree
ORDER BY key SETTINGS storage_policy = 'policy_name_1';

INSERT INTO myFirstReplacingMT Values (1, 'first', '2020-01-01 01:01:01');
INSERT INTO myFirstReplacingMT Values (1, 'second', '2020-01-01 00:00:00');

查看位置

sql 复制代码
SELECT
    name,
    data_paths,
    metadata_path,
    storage_policy
FROM system.tables
WHERE name LIKE 'myFir%'

从文件导入

换一个简单的表 test_batch

bash 复制代码
CREATE TABLE test_batch (a Int64,b Int64) 
ENGINE = ReplacingMergeTree() ORDER BY a

由clickhouse-local生成数据

sudo echo -e "1,2\n2,3" | clickhouse-local --input-format "CSV" -S "a Int64,b Int64" -N "tmp_table" -q "CREATE TABLE test_batch (a Int64,b Int64) ENGINE = ReplacingMergeTree() ORDER BY a;INSERT INTO TABLE test_batch SELECT a,b FROM tmp_table;" --logger.console --path /tmp/test/testlocal/

ls testlocal/data/_local/test_batch/all_1_1_0/

bash 复制代码
checksums.txt  columns.txt  count.txt  data.bin  data.cmrk3  default_compression_codec.txt  metadata_version.txt  primary.cidx  serialization.json

拷贝到server上,查看一下存储位置

bash 复制代码
SELECT
    name,
    data_paths,
    metadata_path,
    storage_policy
FROM system.tables
WHERE name LIKE 'test_batch%'

拷贝到data_paths下detached文件夹

bash 复制代码
 sudo cp -r ./testlocal/data/_local/test_batch/all_1_1_0/ /mnt/xxx/data/store/xxx/detached/

然后在service上:

ALTER TABLE test_batch ATTACH PART 'all_1_1_0';

导入进去了,看看分区(我这里已经重复操作了3次,也就是导入了3次)

bash 复制代码
SELECT
    partition,
    name,
    active
FROM system.parts
WHERE table = 'test_batch'

Query id: 111

┌─partition─┬─name──────┬─active─┐
│ tuple()   │ all_1_1_0 │      1 │
│ tuple()   │ all_2_2_0 │      1 │
│ tuple()   │ all_3_3_0 │      1 │
└───────────┴───────────┴────────┘

Reference

真是秀,ClickHouse批量导入还可以这样玩?-腾讯云开发者社区-腾讯云 (tencent.com)

ClickHouse多盘存储配置-腾讯云开发者社区-腾讯云 (tencent.com)

相关推荐
积跬步,慕至千里21 小时前
clickhouse数据库表和doris数据库表迁移starrocks数据库时建表注意事项总结
数据库·clickhouse
Edingbrugh.南空1 天前
Flink ClickHouse 连接器数据读取源码深度解析
java·clickhouse·flink
Edingbrugh.南空1 天前
ClickHouse 全生命周期性能优化
clickhouse·性能优化
Edingbrugh.南空2 天前
Flink ClickHouse 连接器维表源码深度解析
java·clickhouse·flink
unhurried人生——冕临4 天前
Ubuntu安装ClickHouse
clickhouse
爱吃萝卜的猪16 天前
Clickhouse源码分析-Replicated Database创建流程
clickhouse
编程的大耳朵16 天前
ClickHouse 概述
clickhouse
Ethan301416 天前
Clickhouse官方文档学习笔记
笔记·学习·clickhouse
weixin_3077791317 天前
Python实现MySQL建表语句转换成Clickhouse SQL
数据库·python·sql·mysql·clickhouse
大千AI助手1 个月前
硬核实战 | 3分钟Docker部署ClickHouse列存数据库
大数据·clickhouse·docker·database