ClickHouse数据库的表引擎

ClickHouse数据库的表引擎又叫表的类型,其决定如何存储和读取数据。CK表引擎分为MergeTree、Log、Integrations和Special四个系列。

  • MergeTree引擎:MegerTree系列引擎是CK提供的主要存储引擎,支持ClickHouse几乎所有核心功能。MergeTree适用于高负载任务,支持大数据量的快速写入并进行后续的数据处理,通用程度高且功能强大。该系列引擎的共同特点是支持数据副本、分区、数据采样等特性。MergeTree系列引擎主要有:
    1. MergeTree:用于海量数据分析,支持分区,顺序存储、主键索引等;
    2. ReplacingMergeTree:删除重复数据;
    3. SummingMergeTree:可累加数据;
    4. CollapsingMergeTree:该引擎是为了消除ReplacingMergeTree的限制。引擎需要一个标签列:Sign, 在创建表时指定。在后端比较时,相同主键行和相反Sign将被折叠,就是被删除。
  • Log引擎:Log表引擎主要用于快速写小规模数据(少于100万行),然后全部读出来,包括TinyLog(不支持并发读数据文件;查询性能低;格式简单,适合临时存储数据)、StripeLog(支持并发读数据文件;比TinyLog查询性能佳;在同一文件存储所有列,文件数量比TinyLog少)等。Log引擎的特点包括:
    1. 数据按顺序以追加方式写入磁盘中;
    2. 不支持更新和删除;
    3. 不支持索引;
    4. 不支持原子性写;
    5. 插入时阻塞查询操作。
  • 集成引擎:又叫Integrations系列引擎,主要用于导入外部数据至ClickHouse或在ClickHouse中直接操作外部数据源,包括Kafka(将Kafka Topic的数据导入到ClickHouse)、MySQL(在ClickHouse中操作MySQL)、PostgreSQL(在ClickHouse中操作PG)、HDFS(直接读HDFS上指定格式的数据文件)、JDBC(通过JDBC串读取数据源)等。
  • 特殊引擎:又叫Special系列引擎,用于特定的功能场景,包括Memory(数据在内存中,重启后数据丢失。查询性能极好,适合100万以内无需持久化的小表ClickHouse内部用作临时表)、Buffer(为目标表设置内存缓冲,当缓冲达到一定条件数据会写入磁盘)、Merge(本身不存储数据,可从任意多个其他表中读取数据)等。

ClickHouse的建表示例如下:

sql 复制代码
CREATE TABLE IF NOT EXISTS `tmp_sample` (
  `brand_id` String COMMENT '品牌ID',
  `plan_id` String COMMENT '计划ID',
  `stat_date` Date COMMENT '日期',
  `cost_amt` Decimal(28,2) COMMENT '花费金额',
  `deal_amt` Decimal(28,2) COMMENT '成交金额'
)
ENGINE = ReplacingMergeTree() -- 表类型
PARTITION BY stat_date -- 用于分区
ORDER BY  (stat_date, plan_id) -- 用于去重
PRIMARY KEY (stat_date, plan_id) -- 用于索引,缺失表示和排序键相同,为排序键子集
SETTINGS index_granularity=8192 -- 索引粒度,默认8192
COMMENT '测试表';

CREATE TABLE IF NOT EXISTS `tiny_log_table` (
    timestamp DateTime,
    message_type String,
    message String
)
ENGINE = TinyLog;
相关推荐
2301_8039346119 分钟前
Go语言如何做网络爬虫_Go语言爬虫开发教程【指南】
jvm·数据库·python
秋91 小时前
windows中安装redis
数据库·redis·缓存
Cosolar1 小时前
万字详解:RAG 向量索引算法与向量数据库架构及实战
数据库·人工智能·算法·数据库架构·milvus
想唱rap2 小时前
IO多路转接之poll
服务器·开发语言·数据库·c++
SeaTunnel2 小时前
AI 让 SeaTunnel 读源码和调试过时了吗?
大数据·数据库·人工智能·apache·seatunnel·数据同步
凯瑟琳.奥古斯特2 小时前
数据冗余与规范化的本质[数据库原理]
开发语言·数据库·职场和发展
_ku_ku_3 小时前
数据库系统原理 · SQL 数据定义、更新及数据库编程 · 自学总结
数据库·oracle
Mortalbreeze3 小时前
深度理解文件系统 ---- 从磁盘存储到内核存储
大数据·linux·数据库
2301_803934613 小时前
MySQL 字段类型选择规范指南
jvm·数据库·python
oddsand14 小时前
Redis网络模型
java·数据库·redis