数据库体系 - 技术栈

文章目录

- - [1. 关系型数据库](#1. 关系型数据库)
  - [2. NoSQL 数据库](#2. NoSQL 数据库)
  - [3. 数据库访问](#3. 数据库访问)
  - [4. 数据库设计与优化](#4. 数据库设计与优化)
  - - 项目案例分析
  - [5. 索引](#5. 索引)
  - [6. 存储引擎](#6. 存储引擎)
  - [7. 事务](#7. 事务)
  - [8. 分布式事务](#8. 分布式事务)
  - - Saga事务
    - 两阶段提交（2PC）
    - 三阶段提交（3PC）
    - [补偿事务（TCC - Try-Confirm-Cancel）](#补偿事务（TCC - Try-Confirm-Cancel）)
    - 消息队列实现最终一致性
  - [9. 锁](#9. 锁)
  - [10. update机制](#10. update机制)
  - [11. 备份与恢复](#11. 备份与恢复)
  - - 备份策略
    - 恢复流程
  - [12. SQL性能调优过程](#12. SQL性能调优过程)

1. 关系型数据库

MySQL：MySQL 是一个广泛使用的开源关系型数据库管理系统，支持 SQL 语言，具有高性能、高可靠性和易于管理的特点。
Oracle：Oracle 是一个功能强大的关系型数据库管理系统，支持复杂的事务处理和大数据量的管理，适用于企业级应用。
PostgreSQL：PostgreSQL 是一个开源的关系型数据库管理系统，支持复杂的查询和事务处理，具有高度的可扩展性和可靠性。

2. NoSQL 数据库

Redis：Redis 是一个高性能的键值存储系统，支持多种数据结构，如字符串、列表、集合、有序集合等。常用于缓存、分布式锁等场景。
MongoDB：MongoDB 是一个基于文档存储的 NoSQL 数据库，支持灵活的文档模型和丰富的查询语言，适用于存储半结构化数据。
Cassandra：Cassandra （发音： $kəˈsændrə$ ）是一个分布式列族存储系统，具有高可用性和水平扩展性，适用于大规模数据存储和高并发读写的场景。

3. 数据库访问

JDBC：Java Database Connectivity，用于连接数据库、执行 SQL 语句、处理结果集。
数据库连接池：数据库连接池可以管理和复用数据库连接，提高数据库访问的性能和稳定性。常见的连接池有 HikariCP、C3P0 等。
MyBatis：MyBatis 是一个优秀的 ORM 框架，支持自定义 SQL、存储过程和高级映射。
Hibernate：Hibernate 是一个全功能的 ORM 框架，支持自动映射和复杂的查询操作。

4. 数据库设计与优化

指根据业务需求和数据特点，设计合理的数据库结构，包括表结构、索引、分区、分库分表等。一个好的数据库设计能够提高数据的存储效率、查询效率和数据的一致性。在数据库设计中，需要考虑数据的完整性、一致性、冗余度、范式等因素。同时，还需要根据业务需求进行合理的索引设计，以提高查询效率。

项目案例分析

项目背景：在一个电商系统中，订单表的查询性能较差，影响了用户体验。

解决方案：

表结构优化：将订单表拆分为订单主表和订单详情表，减少单表的数据量。
索引优化：在订单号、用户ID等常用查询条件上添加索引，提高查询效率。
查询优化 ：避免使用 SELECT *，仅查询所需字段；优化 JOIN 查询，减少多表连接。
读写分离：通过主从复制实现读写分离，减轻主库的压力。
缓存策略：使用 Redis 缓存热点数据，减少对数据库的访问压力。

结果：经过优化，订单表的查询性能提升了 50%，用户体验得到显著改善。

5. 索引

B+树：

平衡性：一种自平衡的多路查询树，即使在数据删除/新增操作后，树的高度也能维持在对数级别，保证时间复杂度 O(log n)。
高效的磁盘 I/O：内部节点只存储指针，所有数据存储在叶子节点。在查询过程中，只要到达叶子节点，就能找到对应的数据，无须遍历树的其它叶子节点数据。
支持范围查询和排序：节点间是互相链接，使用范围查询变得高效。同时，由于所有数据都存储在叶子节点，无需再引入外部排序。
减少锁竞争：行级锁，非叶子节点索引大多都是共享的，不需要加锁，使得查询变得高效。

设计原则：

根据查询条件设计 ：索引应该覆盖查询条件的字段，包括 WHERE、GROUP BY、ORDER BY 中查询的字段。
选择合适的列建索引：应建在基数变化大的字段上。
使用短索引：对于字符串类型，可考虑使用前缀索引。

6. 存储引擎

InnoDB：提供了事务支持，行级锁定，外键约束和良好的崩溃恢复能力，适合需要高并发处理的数据完整性保证的应用场景。
MyISAM：提供快速的读取性能，不支持事务和行级锁定，适用于读操作多于写操作且对事务支持要求不高的应用。
MEMORY：临时表及缓存，需快速读写操作场合，内存操作，不持久化。

7. 事务

数据库的核心组件，用于保证数据的一致性和完整性。在分布式系统中，事务的重要性更加明显。事务是一组对数据库的操作序列，这些操作要么全部完成，要么全部不完成。

特点

原子性：一组数据库操作序列，这些操作要么全部完成，要么全部不完成，即不会存在部分完成的情况。
一致性：事务操作的前后，数据库的状态是一致的，即满足所有约束。
隔离性：并发执行的事务之间是互不干扰，一个事务的中间状态对其它事务不可见。
持久性：一旦事务执行完成，其对数据库的修改是持久的。

作用

保证数据的一致性和完整性，防止数据损坏。
提升并发性，通过合理的事务隔离级别保证资源竞争。
提高系统的可靠性，确保故障恢复时能恢复到正确的状态。

事务隔离级别

READ UNCOMMITTED（未提交读）：最低的隔离级别，允许读取未提交的数据，可能导致脏读、不可重复读和幻读。
READ COMMITTED（提交读）：只读取已提交的数据，解决了脏读，但存在不可重复读和幻读。
REPEATABLE READ（可重复读）：MySQL 默认隔离级别，解决了脏读和不可重复读，但存在幻读。
SERIALIZABLE（可串行化）：最高的隔离级别，事务被串行执行，完全避免了脏读、不可重复读和幻读，但性能较低。

8. 分布式事务

Saga事务

核心思想：将一个长事务拆分成多个短事务，每个短事务都在本地服务中执行，并且每个短事务都能够独立提交或回滚。如果整个流程中的某个短事务失败，那么会触发一系列补偿操作来撤销之前成功的短事务的影响，从而确保整个流程的一致性。
组成部分：协调者、参与者、补偿操作。
工作流程：初始化、执行本地事务、后续操作、补偿操作。
缺点：保证最终一致性，而非强一致性。

两阶段提交（2PC）

工作流程：准备阶段、提交阶段。
优点：确保所有参与者要么全部提交，要么全部回滚，提供强一致性保证。
缺点：性能问题、阻塞性、单点故障。

三阶段提交（3PC）

工作流程：询问阶段、预提交阶段、提交阶段。
优点：降低了阻塞的可能性，提高了系统的可用性。
缺点：性能开销较大，实现相对复杂。

补偿事务（TCC - Try-Confirm-Cancel）

概述：通过业务代码实现事务的控制，要求业务系统实现三个方法：Try、Confirm、Cancel。
优点：性能较好，不会出现阻塞情况，适应复杂的业务场景。
缺点：开发成本较高，对业务的侵入性较大。

消息队列实现最终一致性

概述：通过消息队列来实现分布式事务的最终一致性。业务系统在执行本地事务的同时，将事务的操作信息发送到消息队列中，其他系统从消息队列中获取消息并进行相应的处理。
优点：性能较好，对业务的侵入性较小，适应分布式系统的特点。
缺点：只能保证最终一致性，实现相对复杂。

9. 锁

用于管理多个事务对数据的并发访问，保证数据的一致性和完整性。

共享锁（S锁）：用于多个事务持有共享锁并读取同一数据，但阻止其它事务修改这些数据。
排他锁（X锁）：用于一个事务持有排他锁并进行数据操作，但阻止其它事务同时获取共享锁或排他锁。
表级锁：锁定整个表，适用于对整个表操作或只读操作，阻止其它事务同时对数据进行写操作，保证数据的完整性。
行级锁：锁定表的某行记录，减少数据库操作的冲突，但锁的开销较大。
意图锁：用于提示事务意图在表中的某些行上施加共享锁或排他锁。

10. update机制

解析SQL语句：检查表和列是否存在。
生成执行计划：根据查询和索引条件生成执行计划。
查询缓存池：先查询缓存池区是否存在匹配的数据，若不存在，从硬盘将数据页刷新到缓存池。
加锁：对查询到的记录进行加锁，防止在更新操作过程中其它事务对记录进行修改。
记录undo日志：将更新前的数据保存到undo日志中，以便在必要时进行回滚。
更新内存中的数据页：更新内存中的数据页，这些数据页称为脏页。
记录redo日志：将更新操作记录到redo日志缓存区，并在适当的时机将记录刷新到磁盘redo日志。
提交事务：将redo日志操作记录的状态更新为已提交，如果触发了脏页刷新，将更新的binlog刷新到磁盘。
释放锁：事务提交完成，释放对记录的锁。

11. 备份与恢复

备份策略

mysqldump：逻辑备份工具，通过生成包含SQL语句的文件来备份数据库。
二进制日志（binlog）：记录所有的DDL和DML语句，用于增量备份和恢复。
物理备份：冷备和热备，直接复制数据文件进行备份。

恢复流程

全备恢复：使用mysqldump备份的文件，通过mysql命令导入数据库。
增量恢复：首先恢复最近的全备文件，然后使用mysqlbinlog工具将二进制日志中的变更应用到数据库中。

12. SQL性能调优过程

问题发现

监控与日志：通过监控工具和数据库日志发现性能瓶颈。
慢查询日志：开启MySQL的慢查询日志，记录执行时间超过设定阈值的查询语句。

查询优化

分析慢查询：使用explain分析SQL执行计划，找出性能瓶颈。
查询改写 ：避免使用SELECT *，优化JOIN查询，减少返回的数据量，减少锁竞争。
索引优化：使用索引加快查询效率，确保在经常用于过滤、连接、排序的列上使用索引，使用前缀索引减少索引的大小，避免索引失效导致全表扫描的操作（eg.索引列不使用is null or is not null，=null, !=, <>，or,in,not in判断, 不使用%like开头,索引列上不进行任何操作（计算，函数，类型转换））
表结构优化：尽量使用数字型字段，选用最小化存储空间的数据类型，减少I/O操作，使用nvarchar/nchar替代varchar/char，一个表内不超过20字段，尽可能使用not null定义字段
分库分表：通过垂直或水平分区，减少表的大小，提升查询性能和管理效率。
读写分离：通过主从复制等方式实现读写分离，减轻主库压力，提高查询性能。
归档历史与适时删除：定期归档历史数据，删除不再需要的数据。
软件配置优化：调整buffer_innode_pool_size等参数，提高缓存命中率。
硬件优化：确保有足够的内存，使用SSD硬盘，减少I/O等待。
缓存策略：使用Redis等缓存中间件缓存热点数据，减少对数据库的访问压力。
负载均衡：通过负载均衡器将请求分发到多个数据库实例上，实现负载均衡。
异步处理：对于非实时性要求较高的查询，采用异步处理的方式，减少用户等待时间。

结果验证

性能测试：使用性能测试工具对优化后的查询进行性能测试，验证优化效果。
对比分析：对比优化前后的性能指标，评估优化效果是否达到预期。