【数据库系统概论】第七章数据库设计

这里写自定义目录标题

[7.1 数据库设计概述](#7.1 数据库设计概述)
- [7.1.1 数据库设计的特点](#7.1.1 数据库设计的特点)
- [7.1.2 数据库设计方法](#7.1.2 数据库设计方法)
- [7.1.3 数据库设计的基本步骤](#7.1.3 数据库设计的基本步骤)
- [7.1.4 数据库设计过程中的各级模式](#7.1.4 数据库设计过程中的各级模式)
[7.2 需求分析](#7.2 需求分析)
- [7.2.2 需求分析的方法](#7.2.2 需求分析的方法)
- [7.2.3 数据字典](#7.2.3 数据字典)
[7.3 概念结构设计](#7.3 概念结构设计)
- [7.3.1 概念模型](#7.3.1 概念模型)
- [7.3.2 E-R模型](#7.3.2 E-R模型)
- - 1.实体之间的联系
  - 2.E-R图
- [7.3.5 概念结构设计](#7.3.5 概念结构设计)
- - 1.实体与属性的划分原则
  - [2. E-R图的集成](#2. E-R图的集成)
[7.4 逻辑结构设计](#7.4 逻辑结构设计)
- [7.4.1 E-R图向关系模型的转换](#7.4.1 E-R图向关系模型的转换)
- [7.4.2 数据模型的优化](#7.4.2 数据模型的优化)
[7.5 物理结构设计](#7.5 物理结构设计)
- [7.5.1 数据库物理设计的内容和方法](#7.5.1 数据库物理设计的内容和方法)
- [7.5.2 关系模式存取方法选择](#7.5.2 关系模式存取方法选择)
- - 1.B+树索引存取方法的选择
  - [2. HASH存取方法的选择](#2. HASH存取方法的选择)
  - [3. 聚簇存取方法的选择](#3. 聚簇存取方法的选择)
- [7.5.3 确定数据库的存储结构](#7.5.3 确定数据库的存储结构)
- - [1. 确定数据的存放位置](#1. 确定数据的存放位置)
[7.6 数据库的实施和维护](#7.6 数据库的实施和维护)
- [7.6.2 数据库的试运行](#7.6.2 数据库的试运行)
- [7.6.3 数据库的运行和维护](#7.6.3 数据库的运行和维护)

7.1 数据库设计概述

数据库设计是指对于一个给定的应用环境，构造（设计）优化的数据库逻辑模式和物理结构，并据此建立数据库及其应用系统，使之能够有效地存储和管理数据，满足各种用户的应用需求，包括信息管理要求和数据操作要求。

7.1.1 数据库设计的特点

结构（数据）设计和行为（处理）设计相结合

7.1.2 数据库设计方法

规范设计法
- 基本思想：过程迭代和逐步求精
- 典型方法
  - 新奥尔良（New Orleans）方法
  - 基于E-R模型的数据库设计方法
  - 3NF（第三范式）的设计方法
  - 面向对象的数据库设计方法
  - 统一建模语言（UML）方法

7.1.3 数据库设计的基本步骤

数据库设计分6个阶段
- 需求分析
- 概念结构设计
- 逻辑结构设计
- 物理结构设计
- 数据库实施
- 数据库运行和维护

7.1.4 数据库设计过程中的各级模式

概念设计阶段：形成独立于机器特点，独立于各个数据库管理系统产品的概念模式（E-R图）
逻辑设计阶段：
1. 首先将E-R图转换成具体的数据库产品支持的数据模型，如关系模型，形成数据库逻辑模式
2. 然后根据用户处理的要求、安全性的考虑，在基本表的基础上再建立必要的视图（View），形成数据的外模式
物理设计阶段：根据数据库管理系统特点和处理的需要，进行物理存储安排，建立索引，形成数据库内模式

7.2 需求分析

7.2.2 需求分析的方法

7.2.3 数据字典

数据字典的内容
- 数据项：数据项是不可再分的数据单位
- 数据结构
- 数据流
- 数据存储
- 处理过程

7.3 概念结构设计

7.3.1 概念模型

将需求分析得到的用户需求抽象为信息结构（即概念模型）的过程就是概念结构设计
描述概念模型的工具：E-R模型

7.3.2 E-R模型

1.实体之间的联系

（1）两个实体型之间的联系：

①一对一联系（1∶1）

②一对多联系（1∶n）

③多对多联系（m∶n）

2.E-R图

E-R图提供了表示实体型、属性和联系的方法：
- 实体型：用矩形表示，矩形框内写明实体名。
- 属性：用椭圆形表示，并用无向边将其与相应的实体型连接起来。
- 联系：用菱形表示，菱形框内写明联系名，并用无向边分别与有关实体型连接起来，同时在无向边旁标上联系的类型（1∶1，1∶n或m∶n）。

7.3.5 概念结构设计

1.实体与属性的划分原则

（1）作为属性，不能再具有需要描述的性质。属性必须是不可分的数据项，不能包含其他属性。

（2）属性不能与其他实体具有联系，即E-R图中所表示的联系是实体之间的联系。

2. E-R图的集成

E-R图的集成一般需要分两步
- 合并。解决各分E-R图之间的冲突，将分E-R图合并起来生成初步E-R图。
- 修改和重构。消除不必要的冗余，生成基本E-R图。

7.4 逻辑结构设计

把概念结构设计阶段设计好的基本E-R图转换为与选用数据库管理系统产品所支持的数据模型相符合的逻辑结构

7.4.1 E-R图向关系模型的转换

7.4.2 数据模型的优化

数据库逻辑设计的结果不是唯一的。
得到初步数据模型后，还应该适当地修改、调整数据模型的结构，以进一步提高数据库应用系统的性能，这就是数据模型的优化。
关系数据模型的优化通常以规范化理论为指导。
优化数据模型的方法 :

（1）确定数据依赖按需求分析阶段所得到的语义，分别写出每个关系模式内部各属性之间的数据依赖以及不同关系模式属性之间数据依赖。

（2）对于各个关系模式之间的数据依赖进行极小化 处理，消除冗余的联系 。

（3）按照数据依赖的理论对关系模式进行分析，考察是否存在部分函数依赖、传递函数依赖、多值依赖等，确定各关系模式分别属于第几范式。

（4）按照需求分析阶段得到的各种应用对数据处理的要求，分析对于这样的应用环境这些模式是否合适，确定是否要对它们进行合并或分解。

（5）对关系模式进行必要分解，提高数据操作效率和存储空间的利用率。
常用分解方法
- 水平分解:把(基本)关系的元组分为若干子集合，定义每个子集合为一个子关系，以提高系统的效率。
- 垂直分解把关系模式R的属性分解为若干子集合，形成若干子关系模式。

7.5 物理结构设计

为一个给定的逻辑数据模型选取一个最适合应用要求的物理结构的过程，就是数据库的物理设计。

7.5.1 数据库物理设计的内容和方法

关系数据库物理设计的内容
- 为关系模式选择存取方法（建立存取路径)
- 设计关系、索引等数据库文件的物理存储结构

7.5.2 关系模式存取方法选择

数据库管理系统常用存取方法
1. B+树索引存取方法
2. Hash索引存取方法
3. 聚簇存取方法

1.B+树索引存取方法的选择

选择索引存取方法的一般规则
- 如果一个（或一组）属性经常在查询条件中出现 ，则考虑在这个（或这组）属性上建立索引（或组合索引）例子：假设你经常通过 user_id 查询用户信息，那么在 user_id 上建立索引可以加快查询速度。
- 如果一个属性经常作为最大值和最小值等聚集函数的参数 ，则考虑在这个属性上建立索引。例子：如果你经常查询某个商品的最低价格，在 price 上建立索引可以快速找到最小值。
- 如果一个（或一组）属性经常在连接操作的连接条件中出现 ，则考虑在这个（或这组）属性上建立索引。例子：如果两个表经常通过 order_id 连接，那么在 order_id 上建立索引可以提升连接效率。
关系上定义的索引数过多会带来较多的额外开销：维护索引的开销and 查找索引的开销

2. HASH存取方法的选择

选择Hash存取方法的规则
- 如果一个关系的属性主要出现在等值连接条件 中或主要出现在等值比较选择条件 中，而且满足下列两个条件之一。Hash 存取方法特别适合处理等值查询（如 WHERE column = value 或 JOIN ON column1 = column2），因为它可以通过哈希函数直接定位数据，避免全表扫描。
  - 该关系的大小可预知，而且不变；
    如果数据量固定且不会变化，可以提前设计好哈希函数和存储结构，避免因数据动态变化导致的性能问题。
  - 该关系的大小动态改变，但所选用的数据库管理系统提供了动态Hash存取方法。
    如果数据量会动态变化（比如不断增加或删除），但数据库系统支持动态调整哈希结构（如动态哈希表），那么仍然可以使用 Hash 存取方法。

Hash 存取方法的核心思想是通过哈希函数将数据快速映射到某个位置

3. 聚簇存取方法的选择

聚簇：为了提高某个属性（或属性组）的查询速度，把这个或这些属性（称为聚簇码）上具有相同值的元组集中存放在连续的物理块中称为聚簇。
聚簇索引：建立聚簇索引后，基表中数据也需要按指定的聚簇属性值的升序或降序存放。也即聚簇索引的索引项顺序与表中元组的物理顺序一致。
- 在一个基本表上最多只能建立一个聚簇索引
聚簇索引的适用条件
- 很少对基表进行增删操作
- 很少对其中的变长列进行修改操作
聚簇的用途
1. 大大提高按聚簇属性进行查询的效率
2. 节省存储空间
  聚簇以后，聚簇码相同的元组集中在一起了，因而聚簇码值不必在每个元组中重复存储，只要在一组中存一次就行了。
选择聚簇存取方法

设计候选聚簇

（1）常在一起进行连接操作的关系可以建立组合聚簇

（2）如果一个关系的一组属性经常出现在相等比较条件中，则该单个关系可建立聚簇；

（3）如果一个关系的一个（或一组）属性上的值重复率很高，则此单个关系可建立聚簇。

[例] 假设学生关系按所在系建有索引，现在要查询信息系的所有学生名单。
计算机系的500名学生分布在500个不同的物理块上时，至少要执行500次I/O操作。
如果将同一系的学生元组集中存放，则每读一个物理块可得到多个满足查询条件的元组，
从而显著地减少了访问磁盘的次数。

7.5.3 确定数据库的存储结构

确定数据库物理结构主要指确定数据的**存放位置和存储结构，**包括：确定关系、索引、聚簇、日志、备份等的存储安排和存储结构，确定系统配置等。
确定数据的存放位置和存储结构要综合考虑存取时间、存储空间利用率和维护代价3个方面的因素。

1. 确定数据的存放位置

基本原则
- 易变部分与稳定部分分开存放
- 经常存取部分与存取频率较低部分分开存放
  
  [例]
  可以将比较大的表分别放在两个磁盘上，以加快存取速度，这在多用户环境下特别有效。
  可以将日志文件与数据库对象（表、索引等）放在不同的磁盘以改进系统的性能。

7.6 数据库的实施和维护

7.6.2 数据库的试运行

主要工作包括：

功能测试：实际运行应用程序，执行对数据库的各种操作，测试应用程序的各种功能。

性能测试：测量系统的性能指标，分析是否符合设计目标。

7.6.3 数据库的运行和维护

7.7 小结

【数据库系统概论】第七章 数据库设计