1.定义
Fail-safe 和 Fail-fast,是多线程并发操作集合时的一种失败处理机制。
1.1.Fail-Safe机制
1.1.1.定义
Fail-Safe 机制的设计目标是在发生故障时,系统仍然能够继续运行,尽量避免导致整个系统崩溃。即使发生错误或异常,系统会进入一种安全的状态,确保功能的部分可用性或避免更严重的后果。
Fail-safe,表示失败安全,也就是在这种机制下,出现集合元素的修改,不会抛出 ConcurrentModificationException。
原因是采用安全失败机制的集合容器,在遍历时不是直接在集合内容上访问的,而是先复制原有集合内容, 在拷贝的集合上进行遍历。由于迭代时是对原集合的拷贝进行遍历,所以在遍历过程中对原集合所做的修改并不能被迭代器检测到,java定义了一个 CopyOnWriteArrayList,在对这个集合遍历过程中,对集合元素做修改后,不会抛出异常,但同时也不会打印出增加的元素。
java.util.concurrent 包下的容器都是安全失败的,可以在多线程下并发使用,并发修改。
常见的使用 fail-safe 方式遍历的容器有 ConcerrentHashMap 和 CopyOnWriteArrayList 等
|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| private static void failSafe() { CopyOnWriteArrayList<Integer> list = new CopyOnWriteArrayList<Integer>(new Integer[] {1,2,3,4}); Iterator<Integer> iterator = list.iterator(); while (iterator.hasNext()) { Integer i = iterator.next(); System.out .println(i); if (i == 3) { list.add(108); // 在fail-++salf++模式下,这里不会被打印 } } } |
1.1.2.作用
容错性强:Fail-Safe 机制会捕获错误并采取补救措施,系统不会立即中止或崩溃。例如,它可能通过回滚、降级、冗余处理等方式维持基本的功能。
保证安全:它倾向于在发生故障时确保安全性或系统的核心功能。即使某个组件出错,系统会将其隔离或使用默认值来继续运行,而不会产生灾难性的影响。
延续运行:系统能继续执行,保持尽可能正常的操作,用户可能会感知到降级的服务或性能,但不会完全丧失功能。
1.1.3.典型应用场景
核电站控制系统:如果某个传感器失效,系统会进入安全模式,防止发生危险。
飞行控制系统:如果某个子系统出问题,系统会通过冗余设计或故障切换继续飞行。
数据库事务处理:在分布式系统中,Fail-Safe 机制可能用于保持数据的一致性,即使某些服务不可用,系统仍可以部分运行。
1.1.4.优缺点
优点:提高系统的可靠性,防止单点故障影响整个系统。
缺点:可能隐藏潜在的问题,长时间运行会积累更多隐患,影响后续的维护和修复。
1.2.Fail-Fast机制
1.2.1.定义
Fail-Fast 机制的设计目标是在系统检测到故障时,立即终止运行并报告错误,避免故障传播或进一步引发不可控的后果。系统在发现问题时不做任何掩饰,而是迅速失败,让问题暴露在早期阶段。
例如,在集合遍历过程中,一旦发现容器中的数据被修改了,会立刻抛出 ConcurrentModificationException 异常,从而导致遍历失败。定义一个 Map 集合,使用 Iterator 迭代器进行数据遍历,在遍历过程中,对集合数据做变更时,就会 发生 fail-fast。
java.util 包下的集合类都是快速失败机制的, 常见的使用 fail-fast 方式遍历的容器有 HashMap 和 ArrayList 等。
|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| private void ++failFast()++ { Map<String, String> names = new HashMap<String, String>(); names.put("001", "name001"); names.put("002", "name002"); names.put("003", "name003"); names.put("004", "name004"); names.put("005", "name005"); Iterator<String> iterator = names.keySet().iterator(); while (iterator.hasNext()) { System.out .println(names.get(iterator.next())); names.put("006", "name006"); } } |
1.2.2.作用
快速检测错误:Fail-Fast 机制允许系统在检测到不正常情况时立即失败,从而尽早暴露问题。这使得开发人员或运维人员能够迅速发现并修复问题,防止其在系统中蔓延。
避免错误扩散:Fail-Fast 机制通过立即中止故障进程,防止问题影响其他模块或功能,从而保护系统整体的稳定性。
提高开发质量:Fail-Fast 的策略常用于开发和测试环境中,以确保系统在最早的阶段检测到潜在的缺陷和问题。
1.2.3.典型应用场景
Java 集合框架 :如ArrayList
中的迭代器就是 Fail-Fast 的。如果在遍历过程中发现集合结构被修改,它会立即抛出ConcurrentModificationException
,而不是继续运行可能导致不一致的状态。
敏捷开发:在持续集成和持续交付的环境中,Fail-Fast 机制用于在代码中发现问题时立即中断构建,防止有缺陷的代码被部署。
微服务架构:当一个服务依赖的其他服务发生错误时,Fail-Fast 机制可以让服务立即返回错误,而不是等待超时,避免造成更多资源浪费。
1.2.4.优缺点
优点:加快问题的暴露和反馈,防止问题积累,有助于提高系统的整体质量。
缺点:可能在系统中引发较多的短暂性失败,尤其是在分布式系统中,网络抖动或短暂的依赖故障也会导致系统快速终止。
2.Fail-Safe和Fail-Fast的对比
Fail-Safe 机制适用于需要高容错性的系统,目标是在故障情况下仍能保持系统的部分功能运行,保障系统安全性。
Fail-Fast 机制用于尽早暴露和处理错误,防止问题蔓延,适合对问题快速反馈和修复的场景。