Oracle RAC是啥？

Oracle RAC，全称是Oracle Real Application Cluster，翻译过来为Oracle真正的应用集群，它是Oracle提供的一个并行集群系统，由 Oracle Clusterware（集群就绪软件） 和 Real Application Cluster（RAC） 两大部分组成。

Oracle RAC的实质是 位于不同操作系统的Oracle实例节点同时访问同一个Oracle数据库 ，每个节点间通过私有网络进行通信，互相监控节点的运行状态，Oracle数据库所有的数据文件、联机日志文件、控制文件等均放在集群的共享存储设备（可以是RAW、ASM、OCFS2等）上，所有集群节点可以同时读写共享存储。

Oracle RAC的基本拓扑结构如下所示：

由上图可知，

一个Oracle RAC数据库由多个服务器节点组成，每个节点上都有自己独立的OS、ClusterWare、Oracle RAC数据库程序等，每个节点都有自己的网络监听器。
ClusterWare是一个集群软件，主要用于集群系统管理。
Oracle RAC数据库程序用于提供Oracle实例进程，以供客户端访问集群系统。
监听服务主要用于监控自己的网络端口信息。
所有的服务和程序通过操作系统都去访问同一个共享存储，最终完成数据的读写。
共享存储实现方式有多种，如自动存储管理（ASM）、Oracle集群文件系统（OCFS）、裸设备（Raw）、网络区域存储（NAS）等来保证整个集群系统数据的一致性。

Oracle 10g起，Oracle提供自己的集群软件Oracle ClusterWare，它通过CRS（Cluster Ready Services）来实现，这个软件是安装Oracle RAC的前提，也是RAC环境稳定运行的基础。在10g之前的版本，安装RAC必须借助于第三方的集群软件。

从Oracle运行机制来说，集群中每台服务器就是一个Oracle实例，多个Oracle实例对应同一个Oracle数据库，组成Oracle数据库集群。

1 RAC 体系结构与进程

1.1 RAC简介

RAC是一个具有共享缓存体系结构的集群数据库，它克服了传统的不共享和共享磁盘方法的限制，为所有业务应用程序提供了一种可伸缩性和可用性的数据库解决方案，一般与Oracle Clusterware或第三方集群软件共同组成Oracle集群系统。

RAC是一个全共享式的体系架构，所有数据文件、控制文件、联机日志文件、参数文件等都必须存放在共享磁盘中，因为只有这样，集群所有节点才能访问到，RAC支持多种存储方式，包括：

裸设备（Raw devices） - 不经过文件系统，数据直接写入磁盘，好处是磁盘I/O性能很高，适合写操作频繁的业务系统 。缺点是数据维护和备份不方便，备份只能通过dd命令或基于块级别的备份设备来完成，增加了维护成本。
集群文件系统 - 为支持共享存储，Oracle开发了集群文件系统OCFS，可用于Windows、Linux和Solaris，现在已经发展为OCFS2 。通过OCFS2，多个集群节点可以同时读写一个磁盘而不破坏数据，但对于大量读写的业务系统，性能不是很高。另外，Oracle RAC也支持第三方集群文件系统，如Redhat的GFS等。
网络文件系统（NFS）
ASM（Automated Storage Management） - ASM是Oracle推荐的共享数据存储方式 ，它是Oracle 10g包含的一个特性。ASM其实就是RAW方式存储数据，但加入数据管理功能 。它通过将数据直接写入磁盘，避免经过文件系统而产生的I/O消耗 。因此使用ASM可以很方便的管理共享数据并提供异步I/O的性能 。ASM还可以通过分配I/O负载来优化性能，免除手动调整I/O的需要。

1.2 RAC的优缺点

通过RAC数据库，可以构建一个高性能、高可靠的数据库集群系统，优势包括：

实现多个节点间的负载均衡。 RAC数据库可以根据设定的调度策略，在集群节点间实现负载均衡。RAC每个节点都是工作的，同时也处于互相监控状态，当某个节点故障时，RAC集群自动将失效节点从集群隔离，并将失效节点的请求自动转移到其它健康节点上，从而实现服务透明切换。
提供高可用服务。 Oracle Clusterware实现的功能，通过CRS实现节点状态监控，故障透明转移，保证数据库对外不间断的提供服务。
通过横向扩展提高并发连接数。 适用于大型的联机事务系统。
通过并行技术提高事务响应时间。 可用于数据分享系统。
很好的扩展性。 当集群不能满足繁忙业务系统时，可以方便的添加集群节点，且可以在线完成节点的添加，并自动加入集群系统，不存在宕机时间；在不需要某个节点时删除节点也很简单。

RAC的缺点包括：

对比单机数据库，管理维护更复杂，对维护人员要求更高。
底层规划设计不好时，整体性能较差，甚至不如单机系统。对RAC不是很好了解时，不建议马上在生产环境中使用。
由于是多个节点构成，需要购买多台服务器，同时需要企业级版本数据库，无形中增加了软硬件成本。

1.3 RAC的进程管理

RAC数据库在结构上与单实例库有一些不同之处：

RAC数据库每个实例至少拥有一个额外的重做线程（redo thread）
RAC数据库每个实例拥有自己的回滚表空间（undo tablespace）

显然，这种机制是每个实例独立的使用自己的重做线程和回滚表空间，各自锁定自己修改的数据。这种设计方式，把多个实例的操作相对独立的分开。

RAC数据库如何实现节点数据的一致性？每个RAC实例的SGA内有一个buffer cache（缓冲区），通过Cache Fusion（缓存融合）技术 ，RAC在各个节点之间同步SGA中的缓存信息，从而保证节点数据的一致性，同时也提高集群的访问速度。

RAC最大的特点是共享，如何实现多个节点间的数据共享？RAC中有两个重要的进程：**Global Cache Service（全局缓存服务 GCS）**和 Global Enqueue Service（全局队列服务 GES）

全局缓存服务（GCS）和全局队列服务（GES）是最基本的RAC进程，主要用于协调对共享数据库和数据库内的共享资源的同时访问 。同时，GES和GCS通过使用全局资源目录（Global Resource Directory，GRD） 来记录和维护每个数据文件的状态信息，GRD保存在内存中，内容分布存储在所有实例上。

RAC中通过几个特别的进程与GRD相结合，使得RAC可以使用缓存融合技术，这几个进程为：

Global Cache Service Processes（LSMn）。 LSM进程主要用来管理集群内数据块的访问 ，并在不同实例的BUFFER CACHE中传输块镜像。
Global Enqueue Service Monitor（LMON）。 LMON主要监视集群内的全局资源和集群间的资源交互，并管理实例和处理异常，以及集群队列的恢复操作。
Global Enqueue Service Daemon（LMD）。 LMD主要管理对全局队列和全局资源的访问，并更新相应队列的状态，处理来自其他实例的资源请求。
Lock Processes（LCK）。LCK主要用来管理实例间资源请求和跨实例调用操作，并管理除Cache Fusion以外的资源请求，比如library和row cache的请求等。
Diagnosability Daemon（DIAG）。 DIAG主要用来捕获实例中失败进程的诊断信息，并生成相应的trace文件。

1.4 RAC的存储规划

安装RAC数据库涉及的软件有Oracle Clusterware、RAC数据库软件，同时还有voting disk、OCR等，每部分占用磁盘空间如下：

下表列出Oracle可以使用的存储类型：

具体使用哪种存储策略，要根据安装RAC环境的不同而不同。推荐三种常用的存储方式：

2 Oracle Clusterware 体系结构与进程

2.1 Oracle Clusterware简介

Cluster Ready Services，简称CRS，是Oracle开发的一个集群软件。其主要完成集群成员管理、心中监控、故障切换等功能，CRS要求每个集群节点的操作系统必须相同，这样通过CRS将多个节点的操作系统绑定到了一起，客户端对集群的访问，就像访问一台服务器一样。

CRS主要有两个集群套件组成，分别为voting disk 和Oracle Cluster Registry。

voting disk，即为表决磁盘 ，集群中每个节点定期评估自身健康状况，然后把它的状态信息放入到表决磁盘上。节点之间也会互相查看其运行状态，并把信息传递给其他节点进而写入表决磁盘。当节点发生故障时，可以通过表决磁盘进行投票仲裁。因此，表决磁盘必须放在共享存储设备上，以保证每个节点都能访问到。表决磁盘可以是一个裸磁盘分区，也可以是一个独立的文件。由于它仅记录节点运行信息，磁盘大小一般在10-20M左右。
Oracle Cluster Registry，简称OCR，即集群注册服务。OCR主要用于记录RAC中集群和数据库的配置信息，包括集群节点的列表、集群数据库实例到节点的映射以及CRS应用程序资源信息。

CRS使用两种心跳设备来验证节点成员的状态：

表决磁盘。集群同步服务进程每隔几秒钟都会向表决磁盘写入一条心跳信息，集群通过表决磁盘即可验证节点的状态。如果某个节点在指定的最大时间段内没有向表决磁盘写入信息，集群就认为此节点失效，进而执行故障切换。
节点间私有以太网的心跳。通过这个心跳机制可以判断节点间是否出现了网络故障。

两种心跳机制的结合，有效增加了集群的可靠性。另外，CRS建议用于内部通讯的私有以太网心跳必须与用于RAC节点间通讯的网络分开，不能在同一网络中，如果RAC节点间通讯的网络与私有以太网心跳在同一个网络内，则必须保证该网络不能被非集群系统的节点访问到。

2.2 Oracle Clusterware进程介绍

Oracle Clusterware通过Cluster Ready Services来完成集群功能，CRS包含一组相互协作的后台进程：

Cluster Synchronization Services。简称CSS，用于管理与协调集群中各节点的关系，并用于节点间通信，当节点在加入或离开集群时，由CSS进行通知集群。CSS对应的后台进程为CSSD，由oracle用户运行和管理。当节点发生故障时，cssd会自动重启操作系统。
Cluster Ready Services。简称CRS，是管理集群内高可用操作的主要程序，CRS管理所有资源，包括数据库、服务、实例、vip地址、监听器、应用进程等。CRS对应的后台进程为CRSD，可以对集群资源进行启动、停止、监视和容错等操作。正常状态下，CRSD监控节点各种资源，当某个资源发生异常时，自动重启或切换该资源。
Process Monitor Daemon。简称OPROCD，此进程被锁定在内存中，用于监控集群及提供I/O防护。OPROCD运行在每个节点上，定期执行健康检测，如果在超过所希望的时间隔内仍然不能和某个节点通信，则OPROCD会重置处理器及重启节点。
Oracle Notification Service。简称ONS，即oracle通告服务，主要用于发布和订阅Fast Application Notification 事件。
Event Management。简称EVM，是一个事件检测的后台进程，由oracle用户运行和管理。