这几年机会所有大厂都在做去O的事情,机会让mysql普及了整个互联网行业,但是mysql其实是有很大问题的,与oracle比起来,差距很明显;
mysql 把历史数据迁移到clickhouse 有几种方案
1. mysql 引擎
CH 提供mysql 引擎,其实就是一个映射,可以看成一个查询入口;
比如在CH 执行一条sql语句,它其实是跑到mysql去执行的,而且执行完后CH也不保留查询的结果;
迁移的时候可以这么做:
建一个MySQL 引擎
sql
CREATE TABLE mysql_order
ENGINE = MySQL('mysql-host:3306', 'db', 'orders', 'user', 'pwd');
因为 mysql引擎不存数据,还需要一个同步表:
sql
CREATE TABLE order_olap (
id UInt64,
user_id UInt64,
amount Decimal(18,2),
create_time DateTime
) ENGINE = MergeTree
PARTITION BY toYYYYMM(create_time)
ORDER BY (user_id, create_time);
然后按月拉取数据
sql
-- 例如导入 2023-01 月的历史数据
INSERT INTO order_olap
SELECT id, user_id, amount, create_time
FROM mysql_order
WHERE create_time >= '2023-01-01 00:00:00'
AND create_time < '2023-02-01 00:00:00';
2.MaterializedMySQL
ClickHouse MaterializedMySQL数据库引擎会:
首次创建时自动全量拉取(含历史)
之后消费 Binlog 做增量同步(INSERT/UPDATE/DELETE)
sql
SET allow_experimental_database_materialize_mysql = 1
CREATE DATABASE ck_db
ENGINE = MaterializeMySQL(
'mysql-host:3306', 'source_db', 'user', 'password'
)
SETTINGS
materialized_mysql_tables_list = 'orders';
一般用第一种,理由也很简单,可以做数据清洗;而且数据可控;
第二种虽然省事,但是全量阶段对 MySQL 有读压力,不适合超大多分表同时建;
3.KAFKA
顺带聊一下kafka 引擎,这种引擎也是不存数据的,但是和mysql 还不大一样,它是一个消费管道;在这个引擎种一个sql语句查询一遍后,offset 就推进了,再执行相同的sql就查不到了,除非你重置offset;
所以一般配合物化视图做;
sql
-- 1. 创建 Kafka 引擎表,作为消费管道(不存储数据)
CREATE TABLE kafka_src
ENGINE = Kafka
SETTINGS
kafka_broker_list = 'localhost:9092',
kafka_topic_list = 'topic',
kafka_group_name = 'new_group',
kafka_format = 'JSONEachRow',
kafka_auto_offset_reset = 'earliest'
AS SELECT
timestamp UInt64,
level String,
message String;
-- 2. 创建目标存储表,使用 MergeTree 引擎真正存储数据
CREATE TABLE target
ENGINE = MergeTree
ORDER BY (level, day)
AS SELECT
day Date,
level String,
total UInt64;
-- 3. 创建物化视图,将 Kafka 管道中的数据转换并写入目标表
CREATE MATERIALIZED VIEW mv TO target
AS
SELECT
toDate(toDateTime(timestamp)) AS day,
level,
count() as total
FROM kafka_src
GROUP BY day, level;
这里可能会有疑问了,明明物化视图是需要插入的时候才会触发的,为什么kafka 引擎不需要插入操作也能触发呢?
Kafka 引擎表不存数据,只是一个消费者;
ClickHouse 做了一件特殊的事:
MV 绑定到 Kafka 引擎后,Kafka 引擎会启动内部消费者线程ClickHouse。
ClickHouse 的后台线程会持续从 Kafka 拉取消息并组成一个个数据块。因为拉取到了新数据,所以物化视图就会被自动触发,完成数据清洗和落盘;
javascript
Kafka Topic → [Kafka引擎消费者线程] → 生成虚拟Block → 触发MV → 清洗/转换 → 写入MergeTree