软考系统架构设计师知识点-软件可靠性基础

知识点概览

软件可靠性基本概念：软件可靠性定义、软件可靠性的定量描述、可靠性测试的意义、广义的可靠性测试和狭义的可靠性测试
软件可靠性建模：影响软件可靠性的因素、软件可靠性的建模方法、软件的可靠性模型分类
软件可靠性管理：需求分析阶段、概要设计阶段、详细设计阶段、编码阶段、测试阶段、实施阶段
软件可靠性设计：容错设计技术、检错技术、降低复杂度设计、系统配置技术
软件可靠性测试：定义软件运行剖面、设计可靠性测试用例、实施可靠性测试
软件可靠性评价：选择可靠性模型、收集可靠性数据、可靠性评估和预测

软件可靠性定义

软件可靠性是软件产品在规定的条件下和规定的时间区间完成规定功能的能力。

软件可靠性和硬件可靠性区别

复杂性：软件复杂性比硬件高，大部分失效来自于软件失效。
物理退化：软件不存在物理退化现象，硬件失效主要是由于物理退化所致。
唯一性：软件是唯一的，每个复制版本都一样，而两个硬件不可能完全一样。
版本更新周期：硬件较慢，软件较快。

软件可靠性的定量描述

规定时间：自然时间、运行时间、执行时间（占用CPU）。
失效概率：软件运行初始时刻失效概率为0，随着时间增长单调递增，不断趋向于1。
可靠度：软件系统在规定的条件下、规定的时间内不发生失效的概率。等于1-失效概率。
失效强度：单位时间软件系统出现失效的概率。
平均失效前时间(MTTF):平均失效等待时间，系统从开始运行到发生第一次故障所经历的平均时间。
平均恢复前时间(MTTR):平均修复时间，从出现故障到修复成功的时间。
平均故障间隔时间(MTBF):平均失效间隔时间，失效或维护中所需的平均时间，包括故障时间以及检测和维护设备的时间。（系统两次连续故障之间的平均时间）。MTBF=MTTF+MTTR。
系统可用性=MTTF/(MTTF+MTTR)*100%。

串并联系统可靠性

无论什么系统，都是由多个设备组成，并协同工作，而这多个设备的组合方式可以是串联、并联，也可以是混合模式，假设每个设备的可靠性为 R1 R2...Rn ,则：

串联系统可靠性：

并联系统可靠性：

可靠性目标

可靠性目标是指客户对软件性能满意程度的期望。通常用可靠度、故障强度和平均失效时间(MTTF)等指标来描述。

可靠性测试的意义

软件失效可能造成灾难性的后果。
软件的失效在整个计算机系统失效中的比例较高。
软件可靠性技术很不成熟，加剧了软件可靠性问题的重要性。
软件可靠性问题是造成软件费用增长的主要原因之一。
系统对于软件的依赖性越来越强，软件对生产活动和社会生活的影响越来越大，从而增加了软件可靠性问题在软件工程领域乃至整个计算机工程领域的重要性。

可靠性测试的目的

发现软件系统在需求、设计、编码、测试和实施等方面的各种缺陷。
为软件的使用和维护提供可靠性数据。
确认软件是否达到可靠性的定量要求。

广义的可靠性测试和狭义的可靠性测试

广义的软件可靠性测试是指为了最终评价软件系统的可靠性而运用建模、统计、试验、分析和评价等一系列手段对软件系统实施的一种测试。

狭义的软件可靠性测试是指为了获取可靠性数据，按预先确定的测试用例，在软件的预期使用环境中，对软件实施的一种测试。它是面向缺陷的测试，以用户将要使用的方式来测试软件。

影响软件可靠性的因素

软件可靠性模型是指为预计或估算软件的可靠性所建立的可靠性框图和数学模型。

从技术的角度来看，影响软件可靠性的主要因素包括：运行剖面（环境）、软件规模、软件内部结构、软件的开发方法和开发环境、软件的可靠性投入。

软件可靠性的建模方法

一个软件可靠性模型通常（但不是绝对）由以下几部分组成：

模型假设。模型是实际情况的简化或规范化，总要包含若干假设，例如测试的选取代表实际运行剖面（环境），不同软件失效独立发生等。
性能度量。软件可靠性模型的输出量就是性能度量，如失效强度、残留缺陷数等。在软件可靠性模型中性能度量通常以数学表达式给出。
参数估计方法。某些可靠性度量的实际值无法直接获得，例如残留缺陷数，这时需通过一定的方法估计参数的值，从而间接确定可靠性度量的值。
数据要求。一个软件可靠性模型要求一定的输入数据，即软件可靠性数据。

大多数的模型包含3个共同假设：

代表性假设。是指可以用测试产生的软件可靠性数据预测运行阶段的软件可靠性行为。
独立性假设。此假设认为软件失效是独立发生于不同时刻，一个软件失效的发生不影响另一个软件失效的发生。
相同性假设。此假设认为所有软件失效的后果（等级）相同，即建模过程只考虑软件失效的具体发生时刻，不区分软件的失效严重等级。

软件的可靠性模型分类

软件的可靠性分类

种子法模型。利用捕获-再捕获抽样技术估计程序中的错误数，在程序中预先有意"播种"一些设定的错误"种子"，然后根据测试出的原始错误数和发现的诱导错误的比例，来估计程序中残留的错误数。
失效率类模型。用来研究程序的失效率。
曲线拟合类模型。用回归分析的方法研究软件复杂性、程序中的缺陷数、失效率、失效间隔时间。
可靠性增长模型。这类模型预测软件在检错过程中的可靠性改进，用增长函数来描述软件的改进过程。
程序结构分析模型。是根据程序、子程序及其相互间的调用关系，形成一个可靠性分析网络。
输入域分类模型。选取软件输入域中的某些样本"点"运行程序，根据这些样本点在"实际"使用环境中的使用概率的测试运行时的成功/失效率，推断软件的使用可靠性。
执行路径分析方法模型。分析方法与上面的模型相似，先计算程序各逻辑路径的执行概率和程序中错误路径的执行概率，再综合出该软件的使用可靠性。
非齐次泊松过程模型。是以软件测试过程中单位时间的失效次数为独立泊松随机变量，来预测在今后软件的某使用时间点的累计失效数。
马尔可夫过程模型。
贝叶斯模型。是利用失效率的试验前分布和当前的测试失效信息，来评估软件的可靠性。

软件的可靠性管理

软件可靠性管理是软件工程管理的一部分，它以全面提高和保证软件可靠性为目标，以软件可靠性活动为主要对象，是把现代管理理论用于软件生命周期中的可靠性保障活动的一种管理形式。

软件可靠性管理的内容包括软件工程各个阶段的可靠性活动的目标、计划、进度、任务和修正措施等。软件工程各个阶段可能进行的主要软件可靠性活动如下：

需求分析阶段：确定可靠性目标、分析影响因素、确定验收标准、制定管理框架、制定文档编写规范、制定活动初步计划、确定数据收集规范。
概要设计阶段：确定可靠性度量、制定详细验收方案、可靠性设计、收集可靠性数据、调整活动计划、明确后续阶段详细计划、编制文档。
详细设计阶段：可靠性设计、可靠性预测、调整活动计划、收集可靠性数据、明确后续阶段详细计划、编制文档。
编码阶段：可靠性测试（含于单元测试）、排错、调整活动计划、收集可靠性数据、明确后续阶段详细计划、编制文档。
测试阶段：可靠性测试（含于集成测试、系统测试）、排错、可靠性建模、可靠性评价、调整活动计划、收集可靠性数据、明确后续阶段详细计划、编制文档。
实施阶段：可靠性测试（含于验收测试）、排错、收集可靠性数据、调整模型、可靠性评价、编制文档。

软件可靠性设计

实践证明，保障软件可靠性最有效、最经济、最重要的手段是在软件设计阶段采取措施进行可靠性控制。

可靠性设计就是在常规的软件设计中，应用各种方法和技术，使程序设计在兼顾用户的功能和性能需求的同时，全面满足软件的可靠性要求。

软件可靠性设计的原则：

软件可靠性设计是软件设计的一部分，必须在软件的总体设计框架中使用，并且不能与其他设计原则相冲突。
软件可靠性设计在满足提高软件质量要求的前提下，以提高和保障软件可靠性为最终目标。
软件可靠性设计应确定软件的可靠性目标，不能无限扩大化，并且排在功能度、用户需求和开发费用之后考虑。

软件可靠性设计技术主要有容错设计、检错设计、降低复杂度设计和系统配置技术等技术。

提高系统可靠性的技术可以分为避错（排错）技术和容错技术。避错是通过技术评审、系统测试和正确性证明等技术，在系统正式运行之前避免、发现和改正错误。容错是指系统在运行过程中发生一定的硬件故障或软件错误时，仍能保持正常工作而不影响正确结果的一种性能或措施。容错技术主要是采用冗余方法来消除故障的影响。

冗余是指在正常系统运行所需的基础上加上一定数量的资源，包括信息、时间、硬件和软件。冗余是容错技术的基础，通过冗余资源的加入，可以使系统的可靠性得到较大的提高。主要的冗余技术有结构冗余（静态、动态、混合）、信息冗余、时间冗余和冗余附加4种。

容错设计技术

软件容错技术主要有恢复块设计、N版本程序设计和冗余设计等方法。

恢复块设计（动态冗余）：程序的执行过程可以看成是由一系列操作构成的，这些操作又可由更小的操作构成。恢复块设计就是选择一组操作作为容错设计单元，从而把普通的程序块变成恢复块。恢复块方法是一种动态的故障屏蔽技术，采用后向恢复策略。设计时应保证实现主块和后备块之间的独立性，避免相关错误的产生，使主块和备份块之间的共性错误降到最低程度。必须保证验证测试程序的正确性。
版本程序设计：N版本程序的核心是通过设计出多个模块或不同版本，对于相同初始条件和相同输入的操作结果，实行多数表决，防止其中某一软件模块/版本的故障提供错误的服务，以实现软件容错。注意两个方面：①软件需求说明具有完全性和精确性，这是保证软件设计错误不相关的前提；②设计全过程的不相关性。N个版本的程序必须由不同的人独立设计，使用不同的算法、编程语言、编译程序、设计工具、实现方法和测试方法，目的是减少N个版本的程序在表决点上相关错误的概率。N版本程序设计是一种静态的故障屏蔽技术，采用前向恢复的策略。
冗余设计：软件的冗余设计技术实现的原理是在一套完整的软件系统之外，设计一种不同路径、不同算法或不同实现方法的模块或系统作为备份，在出现故障时可以使用冗余的部分进行替换，从而维持软件系统的正常运行。

恢复块设计与N版本程序设计的比较

对比	恢复块方法	N 版本程序设计
硬件运行环境	单机	多机
错误检测方法	验证测试程序	表决
恢复策略	后向恢复	前向恢复
实时性	差	好

前向恢复：使当前的计算继续下去，把系统恢复成连贯的正确状态，弥补当前状态的不连贯情况。

后向恢复：系统恢复到前一个正确状态，继续执行。

检错技术

在软件系统中，对无须在线容错的地方或不能采用冗余设计技术的部分，如果对可靠性要求较高，故障有可能导致严重的后果，一般采用检错技术。检错技术实现的代价一般低于容错技术和冗余技术，但是不能自动解决故障，需要人工干预。

采用检错设计技术要着重考虑几个要素：检测对象、检测延时、实现方式和处理方式。

降低复杂度设计

降低复杂度设计的思想就是在保证实现软件功能的基础上，简化软件结构，缩短程序代码长度，优化软件数据流向，降低软件复杂度，从而提高软件可靠性。

系统配置技术

通常在系统配置中可以采用容错技术，通过系统的整体来提供相应的可靠性，主要有双机热备技术和服务器集群技术。

双机热备技术

双机热备技术是一种软硬件结合的较高容错应用方案。该方案是由两台服务器和一个外接共享磁盘阵列柜及相应的双机热备份软件组成。双机热备系统采用"心跳"方法保证主系统与备用系统的联系。所谓"心跳"，是指主从系统之间相互按照一定的时间间隔发送通信信号，表明各自系统当前的运行状态。一旦"心跳"信号表明主机系统发生故障，或者备用系统无法收到主系统的"心跳"信号，则系统的高可用性管理软件认为主系统发生故障，立即将系统资源转移到备用系统上，备用系统替代主系统工作，以保证系统正常运行和网络服务不间断。

有3种工作模式：双机热备模式；双机互备模式；双机双工模式。

双机热备模式：即通常所说的Active/Standby方式，Active服务器处于工作状态；而Standby服务器处于监控准备状态，服务器数据包括数据库数据同时往两台或多台服务器写入，保证数据的即时同步。当Active服务器出现故障时，通过软件诊测或手工方式将 Standby 机器激活，保证应用在短时间内完全恢复正常使用。这是目前采用较多的一种模式，但由于另外一台服务器长期处于后备的状态，就存在一定的计算资源浪费。
双机互备模式：是两个相对独立的应用在两台机器同时运行，但彼此均设为备机，当某一台服务器出现故障时，另一台服务器可以在短时间内将故障服务器的应用接管过来，从而保证了应用的持续性，但对服务器的性能要求比较高。
双机双工模式：是集群的一种形式，两台服务器均处于活动状态，同时运行相同的应用，以保证整体系统的性能，也实现了负载均衡和互为备份，通常使用磁盘柜存储技术。Web服务器或FTP服务器等用此种方式比较多。

服务器集群技术

集群技术是指一组相互独立的服务器在网络中组合成为单一的系统工作，并以单一系统的模式加以管理。（将多台计算机组织起来进行协同工作）

在集群系统中，每台计算机均承担部分计算任务和容错任务，当其中一台计算机出现故障时，系统使用集群软件将这台计算机从系统中隔离出去，通过各计算机之间的负载转嫁机制完成新的负载分担，同时向系统管理人员发出警报。集群系统通过功能整合和故障过渡，实现了系统的高可用性和可靠性。

特点：可伸缩性、高可用性、可管理性、高性价比、高透明性。

分类：高性能计算集群、负载均衡集群、高可用性集群。

负载均衡技术

负载均衡是集群系统中的一项重要技术，可以提高集群系统的整体处理能力和系统可靠性，最终目的是加快集群系统的响应速度，提高客户端访问的成功概率。集群的最大特征是多个节点的并行和共同工作，如何让所有节点承受的负荷平均，不出现局部过大负载或过轻负载的情况，是负载均衡的重要目的。比较常用的负载均衡实现技术主要有以下几种：

基于特定软件的负载均衡（应用层）。很多网络协议都支持重定向功能，例如，基于HTTP重定向服务，其主要原理是服务器使用HTTP重定向指令，将一个客户端重新定位到另一个位置。服务器返回一个重定向响应，而不是返回请求的对象。客户端确认新地址然后重发请求，从而达到负载均衡的目的。
基于 DNS的负载均衡（传输层），主要原理是在DNS服务器中为同一个主机名配置多个地址，在应答DNS查询时，DNS服务器对每个查询将以DNS文件中主机记录的IP地址按顺序返回不同的解析结果，将客户端的访问引导到不同的节点上去，使得不同的客户端访问不同的节点，从而达到负载均衡的目的。
基于NAT的负载均衡。将一个外部IP地址映射为多个内部IP地址，对每次连接需求，动态地转换为一个内部节点的地址，将外部连接请求引导给得到地址的那个节点上，从而达到负载均衡的目的。
反向代理负载均衡。将来自Internet上的连接请求以反向代理的方式动态地转发给内部网络上的多个节点进行处理，从而达到负载均衡的目的
混合型负载均衡。

软件可靠性测试

软件可靠性测试由可靠性目标的确定、运行剖面的开发、测试用例的设计、测试实施、测试结果的分析等主要活动组成。

软件可靠性测试的步骤：定义软件运行剖面（为软件的使用行为建模，开发使用模型，明确需要测试的内容)------设计可靠性测试用例------实施可靠性测试。

软件可靠性数据是可靠性评价的基础。用时间定义的软件可靠性数据可以分为4类：

失效时间数据：记录发生一次失效所累积经历的时间。
失效间隔时间数据：记录本次失效与上一次失效间的间隔时间。
分组时间内的失效数：记录某个时间区内发生了多少次失效。
分组时间的累积失效数：记录到某个区间的累积失效数。