分库分表之实战-sharding-JDBC分库分表执行流程原理剖析

大家好,我是工藤学编程 🦉 一个正在努力学习的小博主,期待你的关注
实战代码系列最新文章😉 C++实现图书管理系统(Qt C++ GUI界面版)
SpringBoot实战系列🐷 【SpringBoot实战系列】Sharding-Jdbc实现分库分表到分布式ID生成器Snowflake自定义wrokId实战
环境搭建大集合 环境搭建大集合(持续更新)
分库分表 分库分表之实战-sharding-JDBC水平分库+分表后:查询与删除操作实战

前情摘要:

1、数据库性能优化
2、分库分表之优缺点分析
3、分库分表之数据库分片分类
4、分库分表之策略
5、分库分表技术栈讲解-Sharding-JDBC
6、分库分表下的 ID 冲突问题与雪花算法讲解
7、分库分表之实战-sharding-JDBC
8、分库分表之实战-sharding-JDBC广播表
9、分库分表之实战-sharding-JDBC水平分库+水平分表配置实战
10、分库分表之实战-sharding-JDBC绑定表配置实战
11、分库分表之实战-sharding-JDBC水平分库+分表后:查询与删除操作实战


【亲测宝藏】发现一个让 AI 学习秒变轻松的神站!不用啃高数、不用怕编程,高中生都能看懂的人工智能教程来啦!

👉点击跳转,和 thousands of 小伙伴一起用快乐学习法征服 AI,说不定下一个开发出爆款 AI 程序的就是你!


本文章目录

深入Sharding-Jdbc分库分表执行流程:从SQL解析到结果归并的原理剖析

在数据量爆炸的时代,单库单表的性能瓶颈日益凸显,分库分表 成为突破瓶颈的核心手段。Sharding-Jdbc作为轻量级分库分表框架,以"嵌入式"设计深度集成应用,通过拦截JDBC操作实现数据分片的透明化处理。本文结合架构图与执行流程,拆解其核心逻辑:SQL解析→路由→改写→执行→结果归并,带你看透分库分表的底层运行机制。

一、Sharding-Jdbc的架构定位:应用层的"智能代理"

从上图可见,微服务通过引入sharding-jdbc.jar,将分库分表逻辑内置于应用层。它的核心角色是 "中间代理"

  • 对应用:屏蔽多库复杂度,只需操作逻辑表 (如t_order)。
  • 对数据库:自动将逻辑表操作映射到真实数据节点 (如db0.t_order_0db1.t_order_1)。

这种"客户端分片"模式无需独立中间件,减少网络开销,但需应用承担分片逻辑的开发与维护成本。

二、分库分表执行流程全解析:五步拆解核心逻辑

Sharding-Jdbc的执行流程可归纳为 "解析→路由→改写→执行→归并",每一步都暗藏精妙设计(上图为流程全景)。

1. SQL解析

目标:理解SQL意图,提取分片上下文(如分片键、表名)。

  • 词法解析 :将SQL拆分为不可再分的Token(如关键字、表名、字段、值)。
    SELECT * FROM t_order WHERE user_id=100 → 拆分为SELECT*FROMt_orderWHEREuser_id=100
  • 语法解析 :基于Token生成抽象语法树(AST) ,提炼分片关键信息(如逻辑表t_order、分片键user_id),并标记需改写的部分。

核心价值:为后续路由、改写提供"语义理解"基础。

2. SQL路由

目标 :决定SQL该发往哪些数据库/表(即"数据节点路由")。

Sharding-Jdbc提供 两类路由策略

(1)分片路由(带分片键)

适用于含分片键的SQL(如user_id),又细分为:

  • 直接路由 :分片键值明确,直接定位节点(如user_id=100db0.t_order_0)。
  • 标准路由 :通过分片规则匹配(如user_id%2=0db0.t_order_0user_id%2=1db1.t_order_1)。
  • 笛卡尔积路由:多表关联时的复杂路由(需谨慎,易引发性能问题)。
(2)广播路由(不带分片键)

适用于全局查询(如字典表、配置表),包括:

  • 全库表路由 :操作所有库的所有表(如SELECT * FROM dict)。
  • 全库路由 :操作某库下所有表(如SELECT * FROM db0.t_*)。
  • 全实例路由:操作所有数据库实例的表。

核心价值:通过路由策略,将逻辑表映射到真实物理节点,避免无效查询。

3. SQL改写

核心矛盾 :应用写的是逻辑SQL (操作逻辑表,如t_order),但真实数据库中只有物理表 (如t_order_0t_order_1)。

改写逻辑 :将逻辑表替换为物理表,补充分片键等上下文,生成可执行的 实际SQL(Actual SQL)
:逻辑SQL SELECT * FROM t_order WHERE user_id=100 → 改写为 SELECT * FROM t_order_0 WHERE user_id=100(假设user_id=100对应t_order_0)。

4. SQL执行

目标 :将改写后的SQL安全高效地发往数据节点,支持 两种执行模式

(1)内存限制模式(OLAP场景)
  • 特点:不限数据库连接数,多线程并行执行,追求效率最大化。
  • 适用场景:分析型查询(如报表统计),类似ClickHouse的并行计算思路。
(2)连接限制模式(OLTP场景)
  • 特点:严格控制连接数(1库1线程,多库多线程),避免数据库资源耗尽。
  • 适用场景:交易型操作(如订单创建),保证高并发下的稳定性。

核心设计:自动平衡资源消耗与执行效率,适配不同业务场景。

5. 结果归并:多节点结果的"统一聚合"

问题 :多数据节点返回的结果需合并为一个统一结果(如分页、排序、聚合),Sharding-Jdbc提供 两类归并方式

(1)流式归并
  • 原理:逐行获取各节点结果,类似数据库原生返回方式。
  • 优势:节省内存(无需缓存全量结果),适合大数据量场景。
  • 局限:若涉及排序、分组,需额外处理数据顺序。
(2)内存归并
  • 原理:先将所有结果缓存到内存,统一执行分组、排序、聚合后再返回。
  • 优势 :结果精确(如分页的LIMIT可精准截断)。
  • 局限:消耗内存,适合结果集较小的场景。

功能覆盖:支持遍历、排序、分组、分页、聚合,确保最终结果符合应用预期。

三、流程串联:从请求到响应的完整链路

将五步逻辑串联,完整流程如下:

每个步骤环环相扣,实现"应用无感知"的分库分表操作。

结语:Sharding-Jdbc的价值与未来

Sharding-Jdbc通过"解析→路由→改写→执行→归并"的精巧设计,让分库分表对应用透明化,同时在每个环节提供灵活策略。其"客户端分片"的思路,既降低了架构复杂度,也对开发者提出了更高要求(需深入理解分片规则)。

随着分布式数据库的发展,Sharding-Jdbc的核心思想(中间层代理)仍将持续发光------它不仅是分库分表的工具,更是理解分布式数据路由与聚合的"最佳实践教材"。掌握其原理,方能在高并发、大数据场景中从容应对!

觉得有用请点赞收藏!

如果有相关问题,欢迎评论区留言讨论~