ClickHouse数据库的表引擎又叫表的类型,其决定如何存储和读取数据。CK表引擎分为MergeTree、Log、Integrations和Special四个系列。
- MergeTree引擎:MegerTree系列引擎是CK提供的主要存储引擎,支持ClickHouse几乎所有核心功能。MergeTree适用于高负载任务,支持大数据量的快速写入并进行后续的数据处理,通用程度高且功能强大。该系列引擎的共同特点是支持数据副本、分区、数据采样等特性。MergeTree系列引擎主要有:
- MergeTree:用于海量数据分析,支持分区,顺序存储、主键索引等;
- ReplacingMergeTree:删除重复数据;
- SummingMergeTree:可累加数据;
- CollapsingMergeTree:该引擎是为了消除ReplacingMergeTree的限制。引擎需要一个标签列:Sign, 在创建表时指定。在后端比较时,相同主键行和相反Sign将被折叠,就是被删除。
- Log引擎:Log表引擎主要用于快速写小规模数据(少于100万行),然后全部读出来,包括TinyLog(不支持并发读数据文件;查询性能低;格式简单,适合临时存储数据)、StripeLog(支持并发读数据文件;比TinyLog查询性能佳;在同一文件存储所有列,文件数量比TinyLog少)等。Log引擎的特点包括:
- 数据按顺序以追加方式写入磁盘中;
- 不支持更新和删除;
- 不支持索引;
- 不支持原子性写;
- 插入时阻塞查询操作。
- 集成引擎:又叫Integrations系列引擎,主要用于导入外部数据至ClickHouse或在ClickHouse中直接操作外部数据源,包括Kafka(将Kafka Topic的数据导入到ClickHouse)、MySQL(在ClickHouse中操作MySQL)、PostgreSQL(在ClickHouse中操作PG)、HDFS(直接读HDFS上指定格式的数据文件)、JDBC(通过JDBC串读取数据源)等。
- 特殊引擎:又叫Special系列引擎,用于特定的功能场景,包括Memory(数据在内存中,重启后数据丢失。查询性能极好,适合100万以内无需持久化的小表ClickHouse内部用作临时表)、Buffer(为目标表设置内存缓冲,当缓冲达到一定条件数据会写入磁盘)、Merge(本身不存储数据,可从任意多个其他表中读取数据)等。
ClickHouse的建表示例如下:
sql
CREATE TABLE IF NOT EXISTS `tmp_sample` (
`brand_id` String COMMENT '品牌ID',
`plan_id` String COMMENT '计划ID',
`stat_date` Date COMMENT '日期',
`cost_amt` Decimal(28,2) COMMENT '花费金额',
`deal_amt` Decimal(28,2) COMMENT '成交金额'
)
ENGINE = ReplacingMergeTree() -- 表类型
PARTITION BY stat_date -- 用于分区
ORDER BY (stat_date, plan_id) -- 用于去重
PRIMARY KEY (stat_date, plan_id) -- 用于索引,缺失表示和排序键相同,为排序键子集
SETTINGS index_granularity=8192 -- 索引粒度,默认8192
COMMENT '测试表';
CREATE TABLE IF NOT EXISTS `tiny_log_table` (
timestamp DateTime,
message_type String,
message String
)
ENGINE = TinyLog;