mysql到clickhouse

这几年机会所有大厂都在做去O的事情,机会让mysql普及了整个互联网行业,但是mysql其实是有很大问题的,与oracle比起来,差距很明显;

mysql 把历史数据迁移到clickhouse 有几种方案

1. mysql 引擎

CH 提供mysql 引擎,其实就是一个映射,可以看成一个查询入口;

比如在CH 执行一条sql语句,它其实是跑到mysql去执行的,而且执行完后CH也不保留查询的结果;

迁移的时候可以这么做:

建一个MySQL 引擎

sql 复制代码
CREATE TABLE mysql_order
ENGINE = MySQL('mysql-host:3306', 'db', 'orders', 'user', 'pwd');

因为 mysql引擎不存数据,还需要一个同步表:

sql 复制代码
CREATE TABLE order_olap (
    id          UInt64,
    user_id     UInt64,
    amount      Decimal(18,2),
    create_time DateTime
) ENGINE = MergeTree
PARTITION BY toYYYYMM(create_time)
ORDER BY (user_id, create_time);

然后按月拉取数据

sql 复制代码
-- 例如导入 2023-01 月的历史数据
INSERT INTO order_olap
SELECT id, user_id, amount, create_time
FROM mysql_order
WHERE create_time >= '2023-01-01 00:00:00'
  AND create_time <  '2023-02-01 00:00:00';

2.MaterializedMySQL

ClickHouse MaterializedMySQL数据库引擎会:

首次创建时自动全量拉取(含历史)

之后消费 Binlog 做增量同步(INSERT/UPDATE/DELETE)

sql 复制代码
SET allow_experimental_database_materialize_mysql = 1

CREATE DATABASE ck_db
ENGINE = MaterializeMySQL(
    'mysql-host:3306', 'source_db', 'user', 'password'
)
SETTINGS
    materialized_mysql_tables_list = 'orders';  

一般用第一种,理由也很简单,可以做数据清洗;而且数据可控;

第二种虽然省事,但是全量阶段对 MySQL 有读压力,不适合超大多分表同时建;

3.KAFKA

顺带聊一下kafka 引擎,这种引擎也是不存数据的,但是和mysql 还不大一样,它是一个消费管道;在这个引擎种一个sql语句查询一遍后,offset 就推进了,再执行相同的sql就查不到了,除非你重置offset;

所以一般配合物化视图做;

sql 复制代码
-- 1. 创建 Kafka 引擎表,作为消费管道(不存储数据)
CREATE TABLE kafka_src
ENGINE = Kafka
SETTINGS
    kafka_broker_list = 'localhost:9092',
    kafka_topic_list = 'topic',
    kafka_group_name = 'new_group',
    kafka_format = 'JSONEachRow',
    kafka_auto_offset_reset = 'earliest'
AS SELECT
    timestamp UInt64,
    level String,
    message String;

-- 2. 创建目标存储表,使用 MergeTree 引擎真正存储数据
CREATE TABLE target
ENGINE = MergeTree
ORDER BY (level, day)
AS SELECT
    day Date,
    level String,
    total UInt64;

-- 3. 创建物化视图,将 Kafka 管道中的数据转换并写入目标表
CREATE MATERIALIZED VIEW mv TO target
AS
SELECT
    toDate(toDateTime(timestamp)) AS day,
    level,
    count() as total
FROM kafka_src
GROUP BY day, level;

这里可能会有疑问了,明明物化视图是需要插入的时候才会触发的,为什么kafka 引擎不需要插入操作也能触发呢?

Kafka 引擎表不存数据,只是一个消费者;

ClickHouse 做了一件特殊的事:

MV 绑定到 Kafka 引擎后,Kafka 引擎会启动内部消费者线程ClickHouse。

ClickHouse 的后台线程会持续从 Kafka 拉取消息并组成一个个数据块。因为拉取到了新数据,所以物化视图就会被自动触发,完成数据清洗和落盘;

javascript 复制代码
Kafka Topic → [Kafka引擎消费者线程] → 生成虚拟Block → 触发MV → 清洗/转换 → 写入MergeTree
相关推荐
倔强的石头_2 天前
《Kingbase护城河》——数据库存储空间全景探测与精细化瘦身实战
数据库
云技纵横2 天前
唯一索引 INSERT 死锁实战:5 秒复现交叉插入的 S 锁循环等待
sql·mysql
沉默王二2 天前
面试官:RAG 不用向量数据库,用 MySQL 硬扛?我:100 万向量不是很轻松?
mysql·面试·ai编程
冬奇Lab3 天前
每日一个开源项目(第134篇):Zvec - 阿里开源的嵌入式向量数据库,向量搜索界的 SQLite
数据库·人工智能·llm
小猿姐3 天前
MySQL Top 10 热点问题 AI 运维实战:从内核诊断到云原生运维
mysql·云原生·aiops
ClouGence3 天前
Oracle CDC 架构优化:从主库直连到 DataGuard 备库同步
数据库·后端·oracle
云技纵横4 天前
Gap Lock 死锁实战:5 秒在本地复现 MySQL 间隙锁死锁
后端·mysql
无响应de神4 天前
三、用户与权限管理
数据库·mysql
摇滚侠4 天前
Linux CentOS7 rpm 安装 MySQL 5.7
linux·运维·mysql