使用 Clickhouse 集成的表引擎同步数据方式详解

Clickhouse作为一个列式存储分析型数据库,提供了很多集成其他组件的表引擎数据同步方案。

官网介绍

一 Kafka 表引擎

使用Clickhouse集成的Kafka表引擎消费Kafka写入Clickhouse表中。

1.1 流程图

1.2 建表

根据上面的流程图需要建立三张表,分别Clickhouse存储数据表、Kafka数据消费引擎表、物化视图。

(1)Clickhouse存储数据表

复制代码
create table if not exists my_test (
    `id` Int64 comment '主键ID',
    `name` String comment '名称',
    `create_time` DateTime comment '创建时间'
)ENGINE = MergeTree()
PARTITION BY toInt64(toYYYYMMDD(create_time))
PRIMARY KEY id
ORDER BY (id, create_time)
SETTINGS index_granularity = 8192;

(2)Kafka数据消费引擎表

复制代码
create table if not exists kafka_my_test (
    `id` Int64 comment '主键ID',
    `name` String comment '名称',
    `create_time` DateTime comment '创建时间'
)ENGINE = Kafka()
SETTINGS
kafka_broker_list = '192.168.10.1:9092',
kafka_topic_list = 'kafka_m_test',
kafka_group_name = 'group_id_test',
kafka_format = 'JSONEachRow';

必要参数:

  • kafka_broker_list -- 以逗号分隔的 brokers 列表 (localhost:9092)。
  • kafka_topic_list -- topic 列表 (my_topic)。
  • kafka_group_name -- Kafka 消费组名称 (group1)。如果不希望消息在集群中重复,请在每个分片中使用相同的组名。
  • kafka_format -- 消息体格式。使用与 SQL 部分的 FORMAT 函数相同表示方法,例如 JSONEachRow。了解详细信息,请参考 Formats 部分。

可选参数:

  • kafka_row_delimiter - 每个消息体(记录)之间的分隔符。
  • kafka_schema -- 如果解析格式需要一个 schema 时,此参数必填。例如,普罗托船长 需要 schema 文件路径以及根对象 schema.capnp:Message 的名字。
  • kafka_num_consumers -- 单个表的消费者数量。默认值是:1,如果一个消费者的吞吐量不足,则指定更多的消费者。消费者的总数不应该超过 topic 中分区的数量,因为每个分区只能分配一个消费者。

(3)物化视图

复制代码
CREATE MATERIALIZED VIEW IF NOT EXISTS view_m_test TO m_test AS SELECT id, name, create_time FROM kafka_m_test;
相关推荐
SelectDB7 小时前
阶跃星辰基于 SelectDB 构建 PB 级 Agent 可观测平台
大数据·数据库·aigc
这个DBA有点耶8 小时前
GROUP BY优化全解:如何写出既不丢数据又飞快的分组查询
数据库·mysql·架构
掉头发的王富贵11 小时前
【StarRocks】极限十分钟入门StarRocks
数据库·sql·mysql
Nturmoils12 小时前
WHERE 条件别凭习惯写,常用查询先跑一遍
数据库
Databend1 天前
在 AWS 中国峰会逛了一天,我在 Databend 展台看到了 Agent 数据基础设施的新思路
数据库·人工智能·agent
ClouGence3 天前
Oracle 数据同步为什么会出现数据不一致?长事务是常被忽略的原因
数据库·后端·oracle
飞将3 天前
从零实现数据库(2)——HashIndex + IndexManager
数据库
Nturmoils3 天前
订单列表慢查询,先看 WHERE、ORDER BY 和 LIMIT
数据库
阿里云云原生4 天前
告别冗长链路!Kafka × Table Bucket 实现开放表格式零 ETL 实时入湖
云原生·kafka
渣波4 天前
拒绝 SQL 焦虑!手把手带你用 NestJS + Prisma + DTO 写出“防弹”级后端代码
javascript·数据库·后端