9.19(复习9.18，9.16，9.12)

分片式数据库的事务管理包括恢复控制和并发控制，恢复控制一般采用的策略式基于两阶段提交协议

在分布式数据库查询中，导致数据传输通信大的原因主要是各个站点分片间的连接和并操作，不是片内

9.12

1.如果未在游标中声明游标时指定SCROLL，则NEXT是唯一支持的提取选项

2.INSERTED表用于存储INSERT和UPDATE所影响的副本

3.存储过程是一段存储在服务器段的代码段，存储过程的返回结果可以是一个集合

存储过程可以接收多个输入参数，但只有一个输出参数

触发器可以实现不同表中的列之间的相互取值约束

5.规划与分析工作包括系统规划与定义，项目规划和可行性分析

Windows 用户只有系统管理员组成员才有权利登录刀片SQL Server

SQL允许用户自己定义函数

内联表值函数没有相关联的返回变量

内联表值函数的作用类似于带参数的视图

调用内联表值函数时，只能将内联表函数繁殖出现在FROM子句中

用户自定义函数主要包括标量函数和表值函数两类

将经常使用的多个表中的数据行按照其公共列表存储在一起，这种表存储方法为聚集

新建数据库、数据库恢复、数据库软件升级、数据库管理系统补丁安装

属于数据库运行维护工作

11.段的占用空间，用户连接数都属于数据库监控内容

12.数据库备份属于数据库维护内容

将数据库中的历史数据转储到离线存储介质中长期保存也属于数据库管理员日常维护工作

对表进行水平分割不会增加数据库存储空间，只会增加复杂度

常见的反规范化有增加派生冗余列、增加冗余列、重新分组、分割表和新增汇总表

只有散列索引是采用一定的计算方法定位数据的

一个事务执行过程，其正在访问的数据被其他事务修改，导致处理结果不正确。这是由于并发事务间的 隔离性 而引起的

用于数据恢复工作：

日志文件，数据库备份文件，镜像数据库文件

与非聚集索引相比，聚集索引更适合范围查询

使用动态转储机制，必须使用日志文件才能将数据库恢复到一致状态

系统故障是指系统停止运转的任何事件

如：与几台POS机相连的交互机突然损坏

22.数据库镜像不能降低应用成本

23.数据库镜像分为高可用操作模式，高保护操作模式和高性能操作模式

这个世界上主要有以记录为单位 的日志文件和以数据块为单位的日志文件两种

数字签名用于数据防篡改

数据库的完整性保护：

创建触发器

定义事务隔离性级别

差异备份是指从最近的一次完整备份到当前事件数据库中变化的数据和日志

还原数据库：

还原最新完整数据库备份->还原最新的差异备份->从最后一次还原备份后创建的第一个事务日志开始

new

1.分布式数据库的目标是本地自治，非集中式管理，高可用性，位置独立性，数据分片独立性等

无监督学习是指对未知的标签数据进行学习和分组

eg:将一组无标签数据，采用一定的及其学习算法将数据分成不同的组

数据仓库中的数据维护策略分为3种：

实时维护、延时维护和快照维护

实时维护能够保证用户总查到最新的数据

延时维护不是在数据源的更新事务中完成

快照维护时定期对数据库仓库进行维护

在企业数据仓库中，操作性数据存储层，一般用以支撑即时OLAP和全局型OLTP应用

根据事物发展的延续性和规律性，推测变量未来和后续时间点的发展趋势的任务称为时序分析

在关联规则挖掘中，为了发现有意义的关联规则，需要给定最小支持度和最小可信度两个阈值

从高粒度级数据视图切换到低粒度数据视图的分析操作称为钻取操作

根据数据源的变化量在维护对象原有基础上对数据进行维护的方法称为 增长维护法

分类算法需要用到的样本数据一般分成训练集、测试集和验证集3类

对一个数据集的数据进行分组，使得每一组内的数据尽可能相似而不同组间的数据尽可能不同，这样的数据挖掘方法称为聚类算法

只有在用户查询时发现数据已经过期才进行更新的册罗称为 延时维护策略

数据库的四个特性，分别时面向主题，集成，非易失和随时间变化

聚类算法所处理的数据对象一般都没有标记，因此聚类一般也被称为无监督的学习方法

数据从操作型环境转移到数据仓库过程中所用到ETL工具通常需要完成的处理操作包括抽取，转换和装载

知识发现主要由三个步骤完成，他们是数据准备，数据挖掘，结果的解释评估

元数据主要分为技术元数据 和业务元数据

在进行多维分析时，如果将销售额投影到每个月上来进行观察，这种分析动作被称为钻取

面向主题中的主题是一个抽象的概念，主题可以称为分析领域

监督学习是指利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为教师学习或监督训练

建立数据仓库的主要目的是根据决策需求对企业的数据采取适当的手段进行集成，形成一个综合的、面向分析的数据环境，用于支持企业的信息行，而不是信息系统尽可能的实现自主业务决策

ETL是用来描述将数据从来源经过抽取，转换，加载至目的端的过程。采用数据抽取程序从OLTP系统中抽取数据的主要原因是解决不同类型应用程序之间的性能冲突问题

数据挖掘是是从人工智能机器学习中发展起来的，他研究各种方法和技术，从大量的数据中挖掘出有用的信息和知识

K-means算法属于聚类算法

分类算法由统计方法，机器学习方法，神经网络方法

快照适合更新变化量少的数据

分类的过程一般分为两个步骤：首先是通过已知数据集，建立分类函数，构建分类器；

其次是利用所获得的分类函数对未知类别标记的数据项进行分类操作

26.数据集成式将源自不同数据源的数据经过抽取、转换、清理、装载等操作载入数据仓库的过程

将OLTP系统中数据利用抽取程序抽取出来的最主要原因是解决OLTP应用与分析型应用之间的性能冲突问题

数据仓库是服务于决策支持的数据集合

决策支持系统一般是指企业中以数据为基础的重要业务或事务实施辅助决策的信息系统

OLTP是生成数据的系统，OLAP是利用数据的系统

OLTP系统一般面向企业外部人员和企业内部，而OLAP主要面向企业内部各层次决策人员

数据仓库中的数据集合具有集成性，实现企业数据的集成有助实现企业范围的跨部门视图

数据库系统的数据一般是以面向企业 基本业务需要的方式进行组织的，而数据仓库 中的数据是以面向主题的方式进行组织的

数据仓库的更新与时间间隔有关，所以不需要实时更新，对用户进行推荐要结合以往的历史数据而不是仅通过当前数据分析

聚类是将一个数据集中的数据进行分组，使得每一组内的数据尽可能相似而不同组间的数据尽可能不同

OLAP系统要求系统必须具有很高的响应速度，而OLTP对系统的响应速度要求较为宽松

操作型数据对性能要求较高，无冗余

数据抽取日志也不属于元数据

将每年每个分店的销售数据划分为独立的数据表，这种划分方式被成为多维划分，从各个分店的角度，各种商品的角度，每个维度又按粒度的不同划分成多个层次

将每天的销售明细累加后放入日销售额统计表的调优方法一般被称为新增汇总表

分布式数据要达到的目标是：本地自治、非集中管理

不是利用多出力节点并行完成数据库任务

范围划分有利于范围查询和点查询，哪个包含的数据较少，适合对S采用复制的方法

集中式：所有数据片段安排在同一个场地上

分割式：所有数据只有一份，它被分割成若干逻辑片段，每个逻辑片段被指派在一个特定的场地上

全复制式：数据在每个场地上重复存储。也就是每个场地上有一个完整的数据副本

混合式：全局数据被分为若干个数据子集

42.一个事务只能加一把锁

集中式：所有数据片段安排在一个场地上，易形成瓶颈，可靠性较差

分割式：所有全局数据只有一份，它们被分割成若干片段，每个片段被分配到一个特定场地上，对全局数据存取效率较低

混合式：灵活性较大

如果把两张表交叉复制到两地就可以省去通信传输的时间

并行数据库系统的主要目的是通过高速通信介质连接多个可独立处理的单元以并行执行的方式完成对数据库的互联查询、内部查询及各种内部操作

分布式数据库系统的主要目的是实现场地自治和数据全局透明共享

随着用户数量增加，出现的性能瓶颈可以使用复制式的数据分配方式

XML数据库需要对XML文档进行解析，因为XML文档的本身标记知识文档本身的描述，需要经过数据库的解析才能达到具体的用途

分布式数据库查询优化的首要目标是：

使查询执行时通信代价最省

44.混合式数据分配是一种介于分割时和全复制式的分布方式

共享内存的优势是实现简单，缺点是由于共享内存，如果处理器数量过多，容易造成访问内存冲突

共享磁盘结构所有的处理机拥有独立的主存储器，通过互联网共享磁盘。这种结构可以克服共享内存机构，但是由于是通过互联网实现处理器之间的信息交互，会产生一定的通信代价

无共享结构每个处理及拥有独立的主存储器和磁盘，不共享任何资源。它被认为是支持并行数据库系统的最好并行结构

分布式数据库系统的主要目的是实现场地自治和数据全局透明共享

在分布式数据库中，虽然数据分布在多个不同的场地上，在进行查询处理时还要靠频率站点间传输数据的通信代价

局部数据模型透明性使用户在编写应用程序时不但需要了解全局数据的分片情况，还要了解个片段你的复本复制请开给你以及各片段和他们副本的场地位置分配情况，但是不需要了解各场地上数据库的数据模型

分布式数据库系统使物理上分散、逻辑上集中的数据库系统

分布式数据库查询优化的首要目标使 通信代价

SaaS 指Soft as a Service 意思使软件即服务

Paas 是平台即服务

水平分片时，每个分片一定需要包含关系的主码属性

无共享结构被认为时支持并行数据库系统的最好并行结构，它通过最小化共享资源来降低资源竞争的概率，具有极高的扩展性

共享内存结构与单机系统的差别知识以多个处理器代替单处理器

共享磁盘结构中所有处理器都有独立的内存，通过网络共享磁盘

层次结构分为两层，顶层是无共享结构，底层是共享内存或共享磁盘结构

数据划分对并行算法的性能有很大的影响

合理的数据划分能提高查询处理效率，从而提升并行处理性能

并行数据库仅仅依靠多处理器、共享硬件等手段无法实现真正意义上的并行处理，只有当数据分布合理，易于并行处理才能将并行处理库的性能最优化。

共享内存结构中所有的处理机通过互联网共享一个公共的主存储器

共享磁盘结构中所有处理器拥有独立的主存储器，通过互联网共享磁盘

无共享结构中的每个处理机拥有独立的主存储器和磁盘，不共享任何资源

数据垂直的各个片段应该包含关系的主码

数据分配策略中，集中式分配策略便于控制，但数据过于集中，负载过重，易形成瓶颈，可靠性较差

数据水平分片中的每一行必须至少属于一个片段