mysql到clickhouse

这几年机会所有大厂都在做去O的事情,机会让mysql普及了整个互联网行业,但是mysql其实是有很大问题的,与oracle比起来,差距很明显;

mysql 把历史数据迁移到clickhouse 有几种方案

1. mysql 引擎

CH 提供mysql 引擎,其实就是一个映射,可以看成一个查询入口;

比如在CH 执行一条sql语句,它其实是跑到mysql去执行的,而且执行完后CH也不保留查询的结果;

迁移的时候可以这么做:

建一个MySQL 引擎

sql 复制代码
CREATE TABLE mysql_order
ENGINE = MySQL('mysql-host:3306', 'db', 'orders', 'user', 'pwd');

因为 mysql引擎不存数据,还需要一个同步表:

sql 复制代码
CREATE TABLE order_olap (
    id          UInt64,
    user_id     UInt64,
    amount      Decimal(18,2),
    create_time DateTime
) ENGINE = MergeTree
PARTITION BY toYYYYMM(create_time)
ORDER BY (user_id, create_time);

然后按月拉取数据

sql 复制代码
-- 例如导入 2023-01 月的历史数据
INSERT INTO order_olap
SELECT id, user_id, amount, create_time
FROM mysql_order
WHERE create_time >= '2023-01-01 00:00:00'
  AND create_time <  '2023-02-01 00:00:00';

2.MaterializedMySQL

ClickHouse MaterializedMySQL数据库引擎会:

首次创建时自动全量拉取(含历史)

之后消费 Binlog 做增量同步(INSERT/UPDATE/DELETE)

sql 复制代码
SET allow_experimental_database_materialize_mysql = 1

CREATE DATABASE ck_db
ENGINE = MaterializeMySQL(
    'mysql-host:3306', 'source_db', 'user', 'password'
)
SETTINGS
    materialized_mysql_tables_list = 'orders';  

一般用第一种,理由也很简单,可以做数据清洗;而且数据可控;

第二种虽然省事,但是全量阶段对 MySQL 有读压力,不适合超大多分表同时建;

3.KAFKA

顺带聊一下kafka 引擎,这种引擎也是不存数据的,但是和mysql 还不大一样,它是一个消费管道;在这个引擎种一个sql语句查询一遍后,offset 就推进了,再执行相同的sql就查不到了,除非你重置offset;

所以一般配合物化视图做;

sql 复制代码
-- 1. 创建 Kafka 引擎表,作为消费管道(不存储数据)
CREATE TABLE kafka_src
ENGINE = Kafka
SETTINGS
    kafka_broker_list = 'localhost:9092',
    kafka_topic_list = 'topic',
    kafka_group_name = 'new_group',
    kafka_format = 'JSONEachRow',
    kafka_auto_offset_reset = 'earliest'
AS SELECT
    timestamp UInt64,
    level String,
    message String;

-- 2. 创建目标存储表,使用 MergeTree 引擎真正存储数据
CREATE TABLE target
ENGINE = MergeTree
ORDER BY (level, day)
AS SELECT
    day Date,
    level String,
    total UInt64;

-- 3. 创建物化视图,将 Kafka 管道中的数据转换并写入目标表
CREATE MATERIALIZED VIEW mv TO target
AS
SELECT
    toDate(toDateTime(timestamp)) AS day,
    level,
    count() as total
FROM kafka_src
GROUP BY day, level;

这里可能会有疑问了,明明物化视图是需要插入的时候才会触发的,为什么kafka 引擎不需要插入操作也能触发呢?

Kafka 引擎表不存数据,只是一个消费者;

ClickHouse 做了一件特殊的事:

MV 绑定到 Kafka 引擎后,Kafka 引擎会启动内部消费者线程ClickHouse。

ClickHouse 的后台线程会持续从 Kafka 拉取消息并组成一个个数据块。因为拉取到了新数据,所以物化视图就会被自动触发,完成数据清洗和落盘;

javascript 复制代码
Kafka Topic → [Kafka引擎消费者线程] → 生成虚拟Block → 触发MV → 清洗/转换 → 写入MergeTree
相关推荐
六月雨滴1 小时前
Oracle 数据库之归档日志
数据库·oracle·dba
土狗TuGou1 小时前
SQL内功笔记 · 第6篇:窗口函数的使用ROW_NUMBER等
java·数据库·后端·sql·mysql
川石课堂软件测试1 小时前
使用mock进行接口测试教程
数据库·python·功能测试·测试工具·华为·单元测试·appium
Solis程序员2 小时前
MongoDB 超全入门到实战:从原理、CRUD到高可用架构
数据库·mongodb·架构
yurenpai(27届找实习中)2 小时前
redis_点评(26.附近店铺——实现附近商家功能)
数据库·spring boot·redis
BullSmall2 小时前
异构数据库(通俗 + 核心知识点)
数据库
Rick19932 小时前
索引下推(ICP):在已经用到联合索引的前提下,减少回表次数,提升查询效率
数据库
金海境科技2 小时前
实践分享!虚拟化数据恢复前三标准
数据库
不剪发的Tony老师2 小时前
RedisME:一个现代化、轻量级Redis管理工具
数据库·redis