文章目录
-
-
- [1. 关系型数据库](#1. 关系型数据库)
- [2. NoSQL 数据库](#2. NoSQL 数据库)
- [3. 数据库访问](#3. 数据库访问)
- [4. 数据库设计与优化](#4. 数据库设计与优化)
- [5. 索引](#5. 索引)
- [6. 存储引擎](#6. 存储引擎)
- [7. 事务](#7. 事务)
- [8. 分布式事务](#8. 分布式事务)
-
- Saga事务
- 两阶段提交(2PC)
- 三阶段提交(3PC)
- [补偿事务(TCC - Try-Confirm-Cancel)](#补偿事务(TCC - Try-Confirm-Cancel))
- 消息队列实现最终一致性
- [9. 锁](#9. 锁)
- [10. update机制](#10. update机制)
- [11. 备份与恢复](#11. 备份与恢复)
- [12. SQL性能调优过程](#12. SQL性能调优过程)
-
1. 关系型数据库
- MySQL:MySQL 是一个广泛使用的开源关系型数据库管理系统,支持 SQL 语言,具有高性能、高可靠性和易于管理的特点。
- Oracle:Oracle 是一个功能强大的关系型数据库管理系统,支持复杂的事务处理和大数据量的管理,适用于企业级应用。
- PostgreSQL:PostgreSQL 是一个开源的关系型数据库管理系统,支持复杂的查询和事务处理,具有高度的可扩展性和可靠性。
2. NoSQL 数据库
- Redis:Redis 是一个高性能的键值存储系统,支持多种数据结构,如字符串、列表、集合、有序集合等。常用于缓存、分布式锁等场景。
- MongoDB:MongoDB 是一个基于文档存储的 NoSQL 数据库,支持灵活的文档模型和丰富的查询语言,适用于存储半结构化数据。
- Cassandra:Cassandra (发音:[kəˈsændrə])是一个分布式列族存储系统,具有高可用性和水平扩展性,适用于大规模数据存储和高并发读写的场景。
3. 数据库访问
- JDBC:Java Database Connectivity,用于连接数据库、执行 SQL 语句、处理结果集。
- 数据库连接池:数据库连接池可以管理和复用数据库连接,提高数据库访问的性能和稳定性。常见的连接池有 HikariCP、C3P0 等。
- MyBatis:MyBatis 是一个优秀的 ORM 框架,支持自定义 SQL、存储过程和高级映射。
- Hibernate:Hibernate 是一个全功能的 ORM 框架,支持自动映射和复杂的查询操作。
4. 数据库设计与优化
指根据业务需求和数据特点,设计合理的数据库结构,包括表结构、索引、分区、分库分表等。一个好的数据库设计能够提高数据的存储效率、查询效率和数据的一致性。在数据库设计中,需要考虑数据的完整性、一致性、冗余度、范式等因素。同时,还需要根据业务需求进行合理的索引设计,以提高查询效率。
项目案例分析
项目背景:在一个电商系统中,订单表的查询性能较差,影响了用户体验。
解决方案:
- 表结构优化:将订单表拆分为订单主表和订单详情表,减少单表的数据量。
- 索引优化:在订单号、用户ID等常用查询条件上添加索引,提高查询效率。
- 查询优化 :避免使用
SELECT *
,仅查询所需字段;优化JOIN
查询,减少多表连接。 - 读写分离:通过主从复制实现读写分离,减轻主库的压力。
- 缓存策略:使用 Redis 缓存热点数据,减少对数据库的访问压力。
结果:经过优化,订单表的查询性能提升了 50%,用户体验得到显著改善。
5. 索引
B+树:
- 平衡性:一种自平衡的多路查询树,即使在数据删除/新增操作后,树的高度也能维持在对数级别,保证时间复杂度 O(log n)。
- 高效的磁盘 I/O:内部节点只存储指针,所有数据存储在叶子节点。在查询过程中,只要到达叶子节点,就能找到对应的数据,无须遍历树的其它叶子节点数据。
- 支持范围查询和排序:节点间是互相链接,使用范围查询变得高效。同时,由于所有数据都存储在叶子节点,无需再引入外部排序。
- 减少锁竞争:行级锁,非叶子节点索引大多都是共享的,不需要加锁,使得查询变得高效。
设计原则:
- 根据查询条件设计 :索引应该覆盖查询条件的字段,包括
WHERE
、GROUP BY
、ORDER BY
中查询的字段。 - 选择合适的列建索引:应建在基数变化大的字段上。
- 使用短索引:对于字符串类型,可考虑使用前缀索引。
6. 存储引擎
- InnoDB:提供了事务支持,行级锁定,外键约束和良好的崩溃恢复能力,适合需要高并发处理的数据完整性保证的应用场景。
- MyISAM:提供快速的读取性能,不支持事务和行级锁定,适用于读操作多于写操作且对事务支持要求不高的应用。
- MEMORY:临时表及缓存,需快速读写操作场合,内存操作,不持久化。
7. 事务
数据库的核心组件,用于保证数据的一致性和完整性。在分布式系统中,事务的重要性更加明显。事务是一组对数据库的操作序列,这些操作要么全部完成,要么全部不完成。
特点
- 原子性:一组数据库操作序列,这些操作要么全部完成,要么全部不完成,即不会存在部分完成的情况。
- 一致性:事务操作的前后,数据库的状态是一致的,即满足所有约束。
- 隔离性:并发执行的事务之间是互不干扰,一个事务的中间状态对其它事务不可见。
- 持久性:一旦事务执行完成,其对数据库的修改是持久的。
作用
- 保证数据的一致性和完整性,防止数据损坏。
- 提升并发性,通过合理的事务隔离级别保证资源竞争。
- 提高系统的可靠性,确保故障恢复时能恢复到正确的状态。
事务隔离级别
- READ UNCOMMITTED(未提交读):最低的隔离级别,允许读取未提交的数据,可能导致脏读、不可重复读和幻读。
- READ COMMITTED(提交读):只读取已提交的数据,解决了脏读,但存在不可重复读和幻读。
- REPEATABLE READ(可重复读):MySQL 默认隔离级别,解决了脏读和不可重复读,但存在幻读。
- SERIALIZABLE(可串行化):最高的隔离级别,事务被串行执行,完全避免了脏读、不可重复读和幻读,但性能较低。
8. 分布式事务
Saga事务
- 核心思想:将一个长事务拆分成多个短事务,每个短事务都在本地服务中执行,并且每个短事务都能够独立提交或回滚。如果整个流程中的某个短事务失败,那么会触发一系列补偿操作来撤销之前成功的短事务的影响,从而确保整个流程的一致性。
- 组成部分:协调者、参与者、补偿操作。
- 工作流程:初始化、执行本地事务、后续操作、补偿操作。
- 缺点:保证最终一致性,而非强一致性。
两阶段提交(2PC)
- 工作流程:准备阶段、提交阶段。
- 优点:确保所有参与者要么全部提交,要么全部回滚,提供强一致性保证。
- 缺点:性能问题、阻塞性、单点故障。
三阶段提交(3PC)
- 工作流程:询问阶段、预提交阶段、提交阶段。
- 优点:降低了阻塞的可能性,提高了系统的可用性。
- 缺点:性能开销较大,实现相对复杂。
补偿事务(TCC - Try-Confirm-Cancel)
- 概述:通过业务代码实现事务的控制,要求业务系统实现三个方法:Try、Confirm、Cancel。
- 优点:性能较好,不会出现阻塞情况,适应复杂的业务场景。
- 缺点:开发成本较高,对业务的侵入性较大。
消息队列实现最终一致性
- 概述:通过消息队列来实现分布式事务的最终一致性。业务系统在执行本地事务的同时,将事务的操作信息发送到消息队列中,其他系统从消息队列中获取消息并进行相应的处理。
- 优点:性能较好,对业务的侵入性较小,适应分布式系统的特点。
- 缺点:只能保证最终一致性,实现相对复杂。
9. 锁
用于管理多个事务对数据的并发访问,保证数据的一致性和完整性。
- 共享锁(S锁):用于多个事务持有共享锁并读取同一数据,但阻止其它事务修改这些数据。
- 排他锁(X锁):用于一个事务持有排他锁并进行数据操作,但阻止其它事务同时获取共享锁或排他锁。
- 表级锁:锁定整个表,适用于对整个表操作或只读操作,阻止其它事务同时对数据进行写操作,保证数据的完整性。
- 行级锁:锁定表的某行记录,减少数据库操作的冲突,但锁的开销较大。
- 意图锁:用于提示事务意图在表中的某些行上施加共享锁或排他锁。
10. update机制
- 解析SQL语句:检查表和列是否存在。
- 生成执行计划:根据查询和索引条件生成执行计划。
- 查询缓存池:先查询缓存池区是否存在匹配的数据,若不存在,从硬盘将数据页刷新到缓存池。
- 加锁:对查询到的记录进行加锁,防止在更新操作过程中其它事务对记录进行修改。
- 记录undo日志:将更新前的数据保存到undo日志中,以便在必要时进行回滚。
- 更新内存中的数据页:更新内存中的数据页,这些数据页称为脏页。
- 记录redo日志:将更新操作记录到redo日志缓存区,并在适当的时机将记录刷新到磁盘redo日志。
- 提交事务:将redo日志操作记录的状态更新为已提交,如果触发了脏页刷新,将更新的binlog刷新到磁盘。
- 释放锁:事务提交完成,释放对记录的锁。
11. 备份与恢复
备份策略
- mysqldump:逻辑备份工具,通过生成包含SQL语句的文件来备份数据库。
- 二进制日志(binlog):记录所有的DDL和DML语句,用于增量备份和恢复。
- 物理备份:冷备和热备,直接复制数据文件进行备份。
恢复流程
- 全备恢复:使用mysqldump备份的文件,通过mysql命令导入数据库。
- 增量恢复:首先恢复最近的全备文件,然后使用mysqlbinlog工具将二进制日志中的变更应用到数据库中。
12. SQL性能调优过程
问题发现
- 监控与日志:通过监控工具和数据库日志发现性能瓶颈。
- 慢查询日志:开启MySQL的慢查询日志,记录执行时间超过设定阈值的查询语句。
查询优化
- 分析慢查询:使用explain分析SQL执行计划,找出性能瓶颈。
- 查询改写 :避免使用
SELECT *
,优化JOIN
查询,减少返回的数据量,减少锁竞争。 - 索引优化:使用索引加快查询效率,确保在经常用于过滤、连接、排序的列上使用索引,使用前缀索引减少索引的大小,避免索引失效导致全表扫描的操作(eg.索引列不使用is null or is not null,=null, !=, <>,or,in,not in判断, 不使用%like开头,索引列上不进行任何操作(计算,函数,类型转换))
- 表结构优化:尽量使用数字型字段,选用最小化存储空间的数据类型,减少I/O操作,使用nvarchar/nchar替代varchar/char,一个表内不超过20字段,尽可能使用not null定义字段
- 分库分表:通过垂直或水平分区,减少表的大小,提升查询性能和管理效率。
- 读写分离:通过主从复制等方式实现读写分离,减轻主库压力,提高查询性能。
- 归档历史与适时删除:定期归档历史数据,删除不再需要的数据。
- 软件配置优化:调整buffer_innode_pool_size等参数,提高缓存命中率。
- 硬件优化:确保有足够的内存,使用SSD硬盘,减少I/O等待。
- 缓存策略:使用Redis等缓存中间件缓存热点数据,减少对数据库的访问压力。
- 负载均衡:通过负载均衡器将请求分发到多个数据库实例上,实现负载均衡。
- 异步处理:对于非实时性要求较高的查询,采用异步处理的方式,减少用户等待时间。
结果验证
- 性能测试:使用性能测试工具对优化后的查询进行性能测试,验证优化效果。
- 对比分析:对比优化前后的性能指标,评估优化效果是否达到预期。