【ITIL4】32服务实践 - 问题管理(Problem Management)

【ITIL4】32服务实践 - 问题管理(Problem Management)

文章目录

  • [【ITIL4】32服务实践 - 问题管理(Problem Management)](#【ITIL4】32服务实践 - 问题管理(Problem Management))
    • 一、核心定义
      • [1. 问题(Problem)](#1. 问题(Problem))
      • [2. 已知错误(Known Error)](#2. 已知错误(Known Error))
      • [3. 变通方案(Workaround)](#3. 变通方案(Workaround))
      • [4. 问题模型(Problem Model)](#4. 问题模型(Problem Model))
    • 二、目的
    • 三、问题与事故区别
    • 四、问题管理四大核心流程
      • [1. 问题识别(Problem Identification)](#1. 问题识别(Problem Identification))
      • [2.问题控制(Problem Control)](#2.问题控制(Problem Control))
      • [2. 错误控制(Error Control)](#2. 错误控制(Error Control))

问题管理是34项实践之一,属于服务管理实践类别。其核心目标不是"灭火",而是"放火" --- 通过识别和消除事件的实际或潜在根本原因,减少事件发生的概率和影响。

一、核心定义

1. 问题(Problem)

一个或多个事件的实际或潜在原因。

2. 已知错误(Known Error)

已分析但尚未解决的问题,具有记录的根本原因和变通方案。

3. 变通方案(Workaround)

在永久修复不可用前,减少或消除事件/问题影响的临时解决方案。

4. 问题模型(Problem Model)

针对特定类型问题的可重复管理方法。

二、目的

问题管理实践的目的是通过识别事故的实际和潜在原因,以及管理变通方法和已知错误来减少事件的可能性和影响。

每个服务都有可能导致事故的错误、缺陷或漏洞。它们可能包括服务管理的四个维度中的任何一个的错误。许多错误在服务上线前就被发现并解决了。

有些错误仍未被发现或解决,并可能对实时服务构成构成风险。在ITIL中,这些错误被称为问题,它们由问题管理实践来解决。

三、问题与事故区别

  • 事故对用户或业务流程有影响,必须得到解决,以便能够进行正常的业务活动。
  • 问题是事故的原因。它们需要调查和分析,以确定原因,制定解决方法,并建议长期的解决方案。这可以减少未来事故的数量和影响。

四、问题管理四大核心流程

1. 问题识别(Problem Identification)

无论是通过服务台接到的用户反馈、监控系统的报警,这是对历史事件数据的趋势分析,一旦捕捉到频繁发生或影响重大的故障迹象,就立即将其识别并记录为"问题"。

问题识别活动包括识别和记录问题。这些活动包括:

  • 对事故记录进行趋势分析
  • 检测用户、服务台和技术人员的重复和反复出现的问题
  • 在重大事故管理期间,确定事故可能再次发生的风险
  • 分析从供应商和合作伙伴处获得的信息。
  • 分析从内部软件开发人员、测试团队和项目团队收到的信息。

2.问题控制(Problem Control)

这是深入分析的阶段。资深工程师会利用根本原因分析(RCA)等工具(如"五问法"、鱼骨图等),对问题进行分类、优先级排序,并精准定位其根本原因。

问题控制活动包括问题分析,以及记录解方法和已知错误

根据问题所带的风险对其进行优先分析,并根据其潜在的影响和概率将其作为风险进行管理 。分析每一个问题并不是必须的;在最高优先级的问题上取得重大进展可能比调查组织所知道的每一个小问题更有价值

问题控制应该所有的促成原因,包括促成事故持续事件和影响的原因,以及导致事故发生的原因。从服务管理的所有四个维度的角度来分析问题是很重要的。

当一个问题不能被快速解决时,根据对问题的理解,为未来的事故找到并记录一个变通方案往往是有用的。变通方法被记录在问题记录中,这可以在任何阶段进行;不需要等待分析完成。如果在问题控制的早期已经记录了一个变通方法,那么在问题分析完成后应该对其进行审查和改进。

变通方法

一种临时解决方案 - 可减少或消除尚未无完整解决方案的事故或问题的影响,一些变通方法可降低发生事故的可能性。

当解决问题不可行或不符合成本效益时,有效的事故解决方法可以成为处理某些问题的永久方式。在这种情况下,问题仍然处于已知的错误状态,如果发生相关的事故,将应用记录的解决方法。每一个记录在案的解决方法都应该包括对它所适用的症状的明确定义。在某些情况下,解决方法的应用可以是自动化的。

问题控制主要活动:

  • 深入分析问题,使用配置项(CI)信息,用户行为、人为错误、流程缺陷等多维度数据。
  • 识别根本原因(Root Cause)。
  • 制定变通方案或永久修复方案
  • 将已分析的问题标记为"已知错误"。

2. 错误控制(Error Control)

错误控制活动管理已知的错误,也就是已经完成初步分析的问题;通常意味着已经确定了有问题的组成。错误控制还包括识别潜在的永久性解决方案,这可能会导致解决方案的变更请求,但只有成本,风险和收益方面可以证明的情况下才会这样做。

错误控制定期重新评估尚未解决的已知的错误的状态,包含对客户的整体影响,永久性解决方案的可用性和成本,以及变通方法的有效性。每次使用变通方法时,应评估变通方法的有效性,因为变通方法可以根据评估结果进行改进。

相关推荐
怀旧,2 小时前
【Linux网络编程】8. 网络层协议 IP
linux·网络·tcp/ip
RH2312112 小时前
2026.5.12 Linux
java·linux·数据结构
cen__y3 小时前
Linux11(网络编程)
linux·运维·服务器·c语言·网络·网络协议·tcp/ip
ITKEY_3 小时前
archlinux x11桌面 部分程序识别成Wayland
linux
CableTech_SQH3 小时前
商业地产和高端酒店该怎么选综合布线解决方案?
运维·服务器·网络
Y\3 小时前
VMware虚拟机已断开连接解决方法(二)
服务器
isyangli_blog3 小时前
vmware 安装 Windows Server 2012
服务器
怀旧,3 小时前
【Linux网络编程】9. 数据链路层
linux·服务器·网络
QotomPC4 小时前
Qotom Q30900GP多网口Mini PC:16网口设计在pfSense与工业网络中的应用
服务器·网络·边缘计算