互联网三高-数据库高并发之分库分表

1 数据库概述

1.1 数据库本身的瓶颈

① 连接数

MySQL默认最大连接数为100,允许的最大连接数为16384

② 单表海量数据查询性能

单表最好500w左右,最大警戒线800w

③ 单数据库并发压力问题

MySQL QPS:1500左右/秒

④ 系统磁盘IO、CPU瓶颈

1.2 数据库架构演变升级

(1)单机

请求量大查询就会变慢;单机不可用

(2)主从

主从同步,读写分离。从库可以水平扩展。满足更大读请求

但单服务器TPS、内存、IO等都有限

(3)双主(使用场景较少)

用户量上来了,写请求越来越多,一个master节点不能解决问题,添加多个主节点

多个主节点数据要保持一致性,写操作需要两个master之间同步,流程更加复杂

(4)分库分表

分库分表是通过‌垂直拆分‌或‌水平拆分‌对数据库进行物理或逻辑层面的分割,以解决单库单表的性能瓶颈(如连接数限制、数据量过大、硬件资源不足)和数据管理复杂度问题‌。

面试题:开发的项目业务增长,数据库优化思路

思路:① 先问清楚业务增长量,平均大概增长多少

② 千万不要一上来就说分库分表,要根据实际情况分析

(1)数据库优化

1)硬优化:如果资金充裕,可以先优化硬件条件

提升系统硬件,更快的IO,更多的内存,带宽、CPU、磁盘等

2)软优化

① 数据库参数优化

② 分析慢查询SQL语句,分析执行计划,进行SQL改写或程序改下

③ 优化索引结构

④ 优化数据表结构

⑤ 引入NoSQL和程序架构调整

(2)分库分表(如果单表数据量超过1000w或者并发量特别大,还是建议分库分表)

① 根据业务情况而定,选择合适的分库分表策略

② 先看只分表是否满足需求和未来增长

③ 如果单分表不能满足需求,再分库分表一起

总结:

① 在数据量和访问压力不是特别大的情况下,首先考虑数据库优化

② 如果数据量极大,且业务增长块,在考虑分库分表方案

2 分库分表的问题

① 跨节点数据库 join 关联查询

② 分库操作带来的分布式事务问题

③ 执行的SQL排序、翻页、函数计算问题

④ 数据库全局主键重复问题(以前使用的自增ID就会出现问题)

⑤ 容量规划,分库分表二次扩容问题

⑥ 分库分表技术选型问题

3 常见分库分表方案

项目、技术负责人需要有前瞻性思维

① 需要提前考虑1到2年的业务增长情况

② 对数据库服务器(QPS、连接数、容量等)做合理评估和规划

3.1 垂直分表

大表拆小表:基于列字段进行,分离热点字段和非热点字段,避免大字段IO

① 把不常用的字段放在一张表

② 把text、blob等大字段拆分出来一张表

③ 业务经常组合查询的列放在一张表中

3.2 垂直分库

微服务架构,就做了垂直分库,每个服务使用自己的库

问题:垂直分库分表可以提高并发,但是依然没有解决单表数据量过大的问题。

3.3 水平分表

数据拆分:把一个大表分割成N个小表,表结构一样,数据不一样

主要解决单表数据量过大的问题,减少锁表时间

3.4 水平分库

把同一个表数据按照一定规则分到不同的数据库中,数据库在不同的服务器上

水平分库的粒度,比水平分表大

多个数据库,降低系统的IO和CPU压力

注意:水平分库分表,选择合适的分片键和分片策略,和业务场景相配合

4 分库分表常见策略

4.1 range范围(更多适用于水平分表)

(1)数字范围

自增ID,根据ID范围进行分表(左闭右开)

优点:ID自增长,可以无限;扩容不用迁移数据,容易理解和维护

缺点:数据倾斜严重,热点数据过于集中,部分节点有瓶颈,整体利用率低

(2)时间范围

年、月、日范围

使用场景:流水数据、日志信息

(3)空间范围

地理位置:省份、区域划分(华东、华中、华南...)

使用场景:外卖、物流等

4.2 Hash取模

库ID = hashcode % 库数量

表ID = hashcode / 库数量 % 表数量

优点:保证数据较均匀的分散在不同的库、表中,可以有效的避免热点数据集中问题

缺点:扩容不是很方便,需要数据迁移

5 分库分表技术选型

① TDDL(Taobao Distributed Data Layer)

淘宝根据自己业务特点开发的

基于JDBC规范,没有server,以client-jar形式存在,引入项目即可使用

开源功能比较少,阿里内部使用为主

② Mycat

网址:| MYCAT官方网站---中国开源分布式数据库中间件

遵守MySQL原生协议,跨语言、跨平台、跨数据库的通用中间件代理

基于proxy,复写了MySQL协议,将Mycat server伪装成一个MySQL数据库

③ ShardingJDBC

网址:Apache ShardingSphere

Apache ShardingSphere 是一款分布式的数据库生态系统,包括Sharding-JDBC、Sharding-Proxy和Sharding-Sidecar

基于JDBC驱动,不用额外proxy,支持任意实现JDBC规范的数据库

以jar包形式提供服务,无需额外部署和依赖

面试题:Mycat 和 ShardingJDBC 的区别

两者设计理念相同,主流程都是 SQL解析 -> SQL路由 -> SQL改写 -> 结果归并

ShardingJDBC

① 基于JDBC驱动,不用额外proxy,在本地应用重写JDBC原生的方法,实现数据库分片形式

② 是基于JDBC接口的扩展,是以jar包的形式提供轻量级服务,性能高

③ 代码有侵入性

Mycat

① 是基于proxy,复写了MySQL协议,将Mycat server 伪装成一个MySQL数据库

② 客户端所有的JDBC请求都必须要先交给Mycat,再由Mycat转发到具体的真实服务器

③ 缺点是效率偏低,中间包装了一层

④ 代码无侵入性

相关推荐
在努力的前端小白4 分钟前
Spring Boot 敏感词过滤组件实现:基于DFA算法的高效敏感词检测与替换
java·数据库·spring boot·文本处理·敏感词过滤·dfa算法·组件开发
未来之窗软件服务6 分钟前
自建知识库,向量数据库 (九)之 量化前奏分词服务——仙盟创梦IDE
数据库·仙盟创梦ide·东方仙盟·自建ai·ai分词
冒泡的肥皂3 小时前
MVCC初学demo(一
数据库·后端·mysql
.Shu.4 小时前
Redis Reactor 模型详解【基本架构、事件循环机制、结合源码详细追踪读写请求从客户端连接到命令执行的完整流程】
数据库·redis·架构
薛晓刚7 小时前
当MySQL的int不够用了
数据库
SelectDB技术团队7 小时前
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
数据库·数据仓库·数据分析·apache doris·菜鸟技术
星空下的曙光8 小时前
mysql 命令语法操作篇 数据库约束有哪些 怎么使用
数据库·mysql
小楓12018 小时前
MySQL數據庫開發教學(一) 基本架構
数据库·后端·mysql
染落林间色8 小时前
达梦数据库-实时主备集群部署详解(附图文)手工搭建一主一备数据守护集群DW
数据库·sql
颜颜yan_8 小时前
企业级时序数据库选型指南:从传统架构向智能时序数据管理的转型之路
数据库·架构·时序数据库