Clickhouse分布式表初体验

ClickHouse的分布式表是一种特殊类型的表,它允许你跨多个节点进行数据的查询和写入操作。以下是创建分布式表的步骤和案例:

  1. 创建本地表:

在集群的每个节点上创建一个本地表,可以使用`ReplicatedMergeTree`系列引擎来实现数据的复制。例如:

复制代码
CREATE TABLE city_local (
  `fdate` Int64,
  `city_code` Int32,
  `city_name` String,
  `total_cnt` Int64
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/city_local', '{replica}')
PARTITION BY fdate
ORDER BY (fdate, city_code, city_name)
SETTINGS index_granularity = 8192, storage_policy = 'ssd_to_hdd';

这里`{shard}`和`{replica}`是集群配置中的占位符,用于指定分片和副本信息。

  1. 创建分布式表:

使用`Distributed`引擎创建一个分布式表,它不会存储数据,而是将查询和写入操作代理到本地表。例如:

sql 复制代码
CREATE TABLE city_all ON CLUSTER ck_cluster_name AS city_local
ENGINE = Distributed(ck_cluster_name, 'test_db', 'city_local', rand());

这里`ck_cluster_name`是集群名称,`test_db`是数据库名称,`city_local`是本地表名称,`rand()`是一个分片键,用于数据的随机分布。

  1. 插入数据:

可以直接向分布式表插入数据,ClickHouse会将数据分发到对应的本地表。例如:

sql 复制代码
INSERT INTO city_all (fdate, city_code, city_name, total_cnt) VALUES (20210131, 4000, 'guangzhou', 420000);

数据会被写入到对应的本地表中。

  1. 查询分布式表:

查询分布式表时,ClickHouse会在所有分片上执行查询并将结果合并。例如:

sql 复制代码
SELECT * FROM city_all;

这会返回所有分片上的`city_all`表的数据。

  1. 更新和删除操作:

分布式表本身不支持直接的`UPDATE`和`DELETE`操作,这些操作需要在本地表上执行。例如:

sql 复制代码
ALTER TABLE city_local ON CLUSTER ck_cluster_name UPDATE total_cnt = 3333 WHERE city_name = 'foshan';
ALTER TABLE city_local ON CLUSTER ck_cluster_name DELETE WHERE city_name = 'foshan';

这些操作会应用到集群中的所有本地表。

  1. 添加字段:

可以为本地表添加新字段,并且这个变化会自动反映到分布式表上。例如:

sql 复制代码
ALTER TABLE city_local ON CLUSTER ck_cluster_name ADD COLUMN history Int32;

添加字段后,新插入的数据会包含这个新字段。

  1. 删除表:

删除分布式表或本地表时,需要指定集群名称。例如:

sql 复制代码
DROP TABLE city_all ON CLUSTER ck_cluster_name;
DROP TABLE city_local ON CLUSTER ck_cluster_name;

这会删除集群中的相应表。

以上步骤和示例展示了如何在ClickHouse中创建和使用分布式表。需要注意的是,分布式表的写入操作默认是异步的,可能会在短时间内造成数据的不一致性。因此,在生产环境中,通常建议直接写入本地表,而从分布式表进行读取操作。

相关推荐
剩下了什么12 小时前
MySQL JSON_SET() 函数
数据库·mysql·json
山峰哥12 小时前
数据库工程与SQL调优——从索引策略到查询优化的深度实践
数据库·sql·性能优化·编辑器
较劲男子汉12 小时前
CANN Runtime零拷贝传输技术源码实战 彻底打通Host与Device的数据传输壁垒
运维·服务器·数据库·cann
java搬砖工-苤-初心不变12 小时前
MySQL 主从复制配置完全指南:从原理到实践
数据库·mysql
山岚的运维笔记14 小时前
SQL Server笔记 -- 第18章:Views
数据库·笔记·sql·microsoft·sqlserver
roman_日积跬步-终至千里15 小时前
【LangGraph4j】LangGraph4j 核心概念与图编排原理
java·服务器·数据库
汇智信科15 小时前
打破信息孤岛,重构企业效率:汇智信科企业信息系统一体化运营平台
数据库·重构
野犬寒鸦16 小时前
从零起步学习并发编程 || 第六章:ReentrantLock与synchronized 的辨析及运用
java·服务器·数据库·后端·学习·算法
晚霞的不甘17 小时前
揭秘 CANN 内存管理:如何让大模型在小设备上“轻装上阵”?
前端·数据库·经验分享·flutter·3d
市场部需要一个软件开发岗位17 小时前
JAVA开发常见安全问题:纵向越权
java·数据库·安全