原文地址: https://github.com/alibaba/AliSQL
AliSQL 集成 DuckDB 总结
一、什么是 DuckDB?
DuckDB 是一款开源的嵌入式分析型数据库(OLAP),专为数据分析场景设计,具有以下特点:
- 卓越的查询性能:单节点性能远超 InnoDB,甚至超过 ClickHouse 和 SelectDB。
- 优秀的压缩能力:采用列式存储,自动根据数据类型选择压缩算法,压缩率高。
- 嵌入式设计:自然适合嵌入到 MySQL 中。
- 插件化架构:便于第三方开发和功能扩展。
- 友好的许可证:允许任何形式的使用(包括商业用途)。
二、为何将 DuckDB 集成到 AliSQL?
MySQL 长期缺乏分析型查询引擎,InnoDB 擅长 OLTP 但不适合 OLAP。集成后实现:
- 混合负载支持:同一数据库系统同时支持 OLTP(MySQL/InnoDB)和 OLAP(DuckDB)。
- 高性能分析 :分析查询性能最高提升 200 倍。
- 存储成本降低 :DuckDB 只读副本的存储空间仅为原实例的 20%。
- 100% MySQL 语法兼容:作为存储引擎集成,用户无需学习新语法。
- 零额外管理成本:管理与监控方式与普通 RDS MySQL 实例相同。
- 一键部署:自动将 InnoDB 数据转换为 DuckDB 格式,创建只读实例。
三、架构设计
1. MySQL 可插拔存储引擎架构
- 运行时层:通信、访问控制、系统配置与监控。
- Binlog 层:binlog 生成、复制与应用。
- SQL 层:SQL 解析、优化与执行。
- 存储引擎层:数据存储与访问。
2. DuckDB 只读实例架构
- 读写分离:分析负载与主实例隔离,互不影响。
- 数据同步:通过 binlog 机制从主实例复制数据。
- 存储分工 :
- InnoDB:存储元数据和系统信息(账户、配置)。
- DuckDB:存储所有用户数据。
3. 查询路径
- 用户通过 MySQL 客户端连接。
- MySQL 解析查询并进行必要处理。
- SQL 发送至 DuckDB 引擎执行。
- DuckDB 返回结果至服务器层。
- 服务器层将结果转换为 MySQL 格式返回客户端。
兼容性保障:
- 扩展 DuckDB 语法解析器以支持 MySQL 特定语法。
- 重写大量 DuckDB 函数并新增 MySQL 函数。
- 自动化兼容性测试平台(约 17 万条 SQL 测试)显示 兼容率达 99%。
4. Binlog 复制路径
- 幂等性回放:DuckDB 不支持两阶段提交,通过定制事务提交与 binlog 回放流程确保数据一致性。
- DML 回放优化 :
- DuckDB 偏好大事务,小事务频繁会导致复制延迟。
- 实现批量回放机制,达到 30 万行/秒 的回放能力。
- Sysbench 测试中实现零复制延迟,性能优于 InnoDB。
5. DDL 兼容性与优化
- 原生支持 DDL:使用 Inplace/Instant 方式执行。
- 非原生 DDL(如列重排序):通过 Copy DDL 机制实现。
- 数据转换优化 :从 InnoDB 转换至 DuckDB 时采用多线程并行执行,执行时间减少 7 倍。
四、性能基准测试
测试环境:
- ECS 实例:32 CPU,128GB 内存,ESSD PL1 云盘 500GB。
- 基准测试:TPC-H SF100。
性能对比(部分查询时间,单位:秒):
- DuckDB:总时间 15.31 秒。
- InnoDB:总时间 25234.31 秒(部分查询超时 1800 秒)。
- 性能提升 :DuckDB 在分析查询场景下最高提升 200 倍。
五、体验方式
可在阿里云 RDS MySQL 上体验 DuckDB 引擎:
六、相关资源
总结
AliSQL 通过将 DuckDB 集成作为原生 AP 引擎,为用户提供了高性能、低存储成本、完全兼容 MySQL 语法的分析查询能力。该架构实现了 OLTP 与 OLAP 的混合负载支持,并通过优化 binlog 复制、DDL 兼容性及查询路径,确保了系统的稳定性与易用性。适用于需要在 MySQL 生态中直接进行高效数据分析的场景。