数据库--dataset design

Data Dependency

evils of redundancy 冗余的弊端

冗余是关系模式诸多问题的根源:

存储冗余

更新异常:插入异常、删除异常

事务吞吐量低(low transaction throughput):冗余度越高,若要保证事务无异常,需锁定更多对象,导致冲突加剧、吞吐量下降

因此 可以通过通过模式分解消除异常

属性间存在的依赖关系,主要包括:

a.函数依赖(FD):最基础的数据依赖,指一个或一组属性的值可唯一确定其他属性的值,是数据库设计中最重要的依赖类型。

b.多值依赖(MVD):某一属性的值可确定另一组属性的多个值。

c.连接依赖(JD):无损连接分解的约束条件。

Function dependency (FD) 函数依赖

设 A、B 为关系 R 的属性集,若对关系 R 中任意两个元组 t₁和 t₂,当 t₁[A] = t₂[A] 时,必有 t₁[B] = t₂[B],则称 "A 函数确定 B",记为 A→B,A→B 即为函数依赖。

超键:A set of attributes that determines the entire tuple is a superkey.(如 {学号,姓名}、{学号,姓名,年龄} 均为学生表的超键)

候选键:. A minimal set of attributes that determines the entire type is a candidate key.能确定整条元组的最小属性集

主键:多个候选键中选定的一个。

MULTI-VALUE DEPENDENCE 多值依赖

设关系模式 R (U),U 为属性集,X、Y、Z 为 U 的子集,且 Z=U-X-Y。关系模式 R (U) 中多值依赖 X→→Y 成立的充要条件为:

1.R 中每个元组在 X、Y 上均有一组值 (x,y);

2.给定 X 的一个值 x,Y 的一组值仅由 x 决定,与 Z 的值无关。

核心:X 值相同的元组,其 Y 值可互换。

JOIN DEPENDENCY 连接依赖

若通过自然连接 SP、SJ、PJ 可重构原关系 SPJ,则该分解为无损连接分解;否则为有损连接分解

连接依赖定义

设 X₁、X₂、...、Xₙ为关系 R 属性集 U 的子集,且∪ⁿᵢ₌₁Xᵢ=U;R [X₁]、R [X₂]、...、R [Xₙ] 为 R 在 X₁、X₂、...、Xₙ上的投影。若对 R 中每个元组 r,均满足 r = r [X₁]⋈r [X₂]⋈...⋈r [Xₙ],则称 R 存在连接依赖,记为⋈(X₁,X₂,...,Xₙ)。

如何获得优良设计?

DB gurus have also discussed trade-offs among normal forms.

范式与依赖的对应关系

基于函数依赖(FD):1NF、2NF、3NF、BCNF

基于多值依赖(MVD):4NF

基于连接依赖(JD):5NF

1NF

属性类型必须原子化(不可再分)

Types must be atomic

2NF

关系 R 满足 1NF;

每个非主属性完全函数依赖于 R 的某个候选键(不允许部分函数依赖)。

例子:关系 SC(学号,姓名,年龄,地址,课程号,成绩)

完全函数依赖:(学号,课程号)→成绩(成绩需由学号和课程号共同确定);

部分函数依赖:姓名、年龄、地址仅由学号即可确定,无需课程。

结论:关系 SC 违反 2NF。

非2NF的问题:

插入异常:无法插入未选课学生的信息;

删除异常:学生退选所有课程时,其基本信息会丢失;

更新困难:冗余导致更新时难以保持元组间的一致性。

3NF

关系 R 满足 2NF;

每个非主属性不传递函数依赖于 R 的某个候选键。

传递依赖例子:

员工表 EMP(员工编号,薪资等级,薪资):员工编号→薪资等级,薪资等级→薪资;

学生表 STU(学号,院系名称,院系主任):学号→院系名称,院系名称→院系主任。

非3NF问题

插入异常:未确定员工薪资等级前,无法录入薪资等级与薪资的对应关系;

删除异常:若某薪资等级仅对应一名员工,删除该员工会丢失该薪资等级与薪资的对应关系;

更新困难:冗余导致更新时难以保持一致性。

BCNF

BCNF 在 3NF 基础上,消除了主属性对候选键的部分函数依赖和传递函数依赖,要求:

1.所有非主属性完全函数依赖于每个候选键(满足 2NF);

2.所有主属性完全函数依赖于不包含该主属性的每个候选键;

3.主属性间不存在传递函数依赖;

4.无属性完全函数依赖于非主属性。

数据库设计方法

面向过程方法Procedure oriented method

核心:以业务流程为中心,直接依据业务中的凭证、单据、报表等设计数据库模式;

特点:项目初期速度快,但未深入分析数据及数据间内在关系,难以保证软件质量,适配未来需求和环境变化的能力弱;

适用场景:不适用于大型复杂系统开发。

面向数据方法Data oriented method

核心:以数据为中心,深入分析业务流程涉及的数据及数据间关系,设计数据库模式;

特点:既能满足当前需求,也能适配潜在需求,易于应对未来需求和环境变化;

适用场景:推荐用于大型复杂系统开发

流程

相关推荐
山沐与山2 小时前
【数据库】PostgreSQL架构与索引深度剖析
数据库·postgresql·架构
不穿格子的程序员3 小时前
Redis篇6——Redis深度剖析:从单机到集群,Redis高可用进化史
数据库·redis·集群·主从·高可用·哨兵
阿坤带你走近大数据3 小时前
什么是元数据管理?(附具体实施方案供参考)
数据库·金融
俊男无期3 小时前
超效率工作法
java·前端·数据库
2301_823438023 小时前
【无标题】解析《采用非对称自玩实现强健多机器人群集的深度强化学习方法》
数据库·人工智能·算法
中国胖子风清扬3 小时前
SpringAI和 Langchain4j等 AI 框架之间的差异和开发经验
java·数据库·人工智能·spring boot·spring cloud·ai·langchain
Elastic 中国社区官方博客3 小时前
Elasticsearch:你是说,用于混合搜索(hybrid search)
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
czlczl200209254 小时前
高并发下的 Token 存储策略: Redis 与 MySQL 的一致性
数据库·redis·mysql
虹科网络安全4 小时前
艾体宝产品 | 基准测试:ArangoDB性能碾压Neo4j,速度最高提升8倍!
数据库·neo4j