数据库分库分表的方法论与实操

背景

以MySQL为例,单表 > 1000 万行

或单表大小 > 10GB

表现:索引变大、查询变慢、优化无效。

分库分表时机

单表数据量过大

一般经验值:

单表 > 1000 万行

或单表大小 > 10GB

表现:索引变大、查询变慢、优化无效。

读写压力过高,单机扛不住

CPU 持续高负载

IO 等待严重

主从延迟变大

即使加索引、SQL 优化、加缓存也压不住

并发连接数、TPS/QPS 达到单机瓶颈

MySQL 单机连接数、事务处理能力有上限

分库 vs 分表 核心区别

  1. 分库(Database Sharding)
    定义:把多个库分散到不同 MySQL 实例 / 节点上
    物理层面:不同IP、端口、进程
    解决问题:数据库连接数、CPU、IO、内存等单机性能瓶颈
  2. 分表(Table Sharding)
    定义:把一张大表拆成多张结构相同的小表
    物理层面:可以在同一个库,也可以跨库
    解决问题:单表数据量过大,导致查询慢、索引膨胀、DDL 卡死

业务有隔离、合规、多地域部署需求

• 多租户隔离

• 按地区 / 业务线分库

• 合规要求数据物理隔离

一、核心触发指标(硬性条件)

指标 单表/单库警戒线 处理建议
数据量 ≥ 1000万行 考虑分表
磁盘空间 ≥ 服务器内存的2~3倍 紧急分库分表
QPS/TPS 读写QPS ≥ 5000 分库分表 + 读写分离
连接数 活跃连接数 ≥ 最大连接数70% 分库分散压力
慢查询比例 ≥ 5% 先优化索引/SQL,无效再分表

📌 真实案例

某电商平台订单表达到800万行 后,WHERE user_id=xxx查询从50ms升至1200ms ,分表后恢复至60ms


二、业务场景触发点(软性条件)

1. 高频访问的热点数据
sql 复制代码
-- 例如用户表被20%头部用户占据80%访问量
SELECT * FROM users WHERE vip_level > 8; -- 每天执行50万次

解决方案 :按vip_level分库,将高等级用户分散到不同库。

2. 业务垂直拆分需求

将单库A按业务类型拆分为三个库

A[单库] --> B[用户库]

A --> C[订单库]

A --> D[商品库]

复制代码
- 当不同业务线(如用户、订单、支付)互相抢占资源时
- **优势**:故障隔离、独立扩展
#### 3. **地域/时间分片需求**
- 物流系统:按`region_id`分库(华北/华东/华南)
- 日志系统:按`create_time`按月分表(logs_202301, logs_202302)
---
### 三、不该分库分表的场景(警告!)
| **场景**                | **风险**                  | **替代方案**              |
| 数据量 < 100万行        | 分片维护成本 > 收益       | 索引优化/读写分离        |
| 事务强一致性要求高      | 分布式事务复杂度爆炸      | 升级硬件/缓存策略        |
| 无分片键的频繁查询      | 全库扫描性能更差         | 建全局二级索引           |
| 团队无分库分表经验      | 可能引发数据错乱         | 用云数据库(如Aurora)   |
#### 具体步骤:
1. **先优化后分片**  
   - 90%的性能问题可通过优化SQL/索引/缓存解决
   ```sql
   -- 反例:未用索引的查询
   SELECT * FROM orders WHERE status=1 ORDER BY create_time DESC;
   -- 正解:添加联合索引
   ALTER TABLE orders ADD INDEX idx_status_time(status, create_time);
  1. 先读写分离,再分库分表
    • 读多写少场景:用MySQL主从复制 + 读负载均衡
    • 写压力大:再考虑分库分表
相关推荐
yige452 小时前
【MySQL】MySQL内置函数--日期函数字符串函数数学函数其他相关函数
android·mysql·adb
一只努力的微服务2 小时前
【Calcite 系列】深入理解 Calcite 的 AggregateValuesRule
大数据·数据库·calcite·优化规则
IT邦德2 小时前
Oracle向量数据库实战
数据库·oracle
2401_873544922 小时前
使用Python处理计算机图形学(PIL/Pillow)
jvm·数据库·python
路由侠内网穿透2 小时前
本地部署开源工作空间工具 AFFiNE 并实现外部访问
运维·服务器·数据库·物联网·开源
njidf3 小时前
自动化机器学习(AutoML)库TPOT使用指南
jvm·数据库·python
F1FJJ3 小时前
什么是 Shield CLI?视频讲解:一条命令,可浏览器远程访问一切内部服务(RDP/VNC/SSH/数据库等)
运维·网络·数据库·网络协议·ssh
星辰_mya3 小时前
InnoDB的“身体结构”:页、Buffer Pool与Redo Log的底层奥秘
数据库·mysql·spring·面试·系统架构
F1FJJ3 小时前
Shield CLI 命令全解析:15 个命令覆盖所有远程访问场景
网络·数据库·网络协议·容器·开源软件