跳到主要内容

19 故障及问题管理

一、故障管理概述

故障

故障的概念:

  • 系统运转过程中出现的任何系统本身的问题,
  • 或者是任何不符合标准的操作,
  • 已经引起或可能引起服务中断和服务质量下降的事件。

描述故障的特征:

  • 影响度
  • 紧迫性
  • 优先级

故障处理

故障处理的概念:
故障出现时为尽快恢复服务(办公)而采取的技术或管理上的办法

故障处理流程:
服务台——》专家支持小组——》服务台与客户经验

故障管理

目标:

  • 尽可能快地恢复服务级别协议规定的水准,
  • 尽量减少故障对业务运营的不利影响,
  • 以确保最好的服务质量和可用性。

范围:

  • 硬件及外围设备故障
  • 应用系统故障
  • 请求服务和操作故障

二、故障管理流程

故障监视

故障调研

  • 故障信息的收集
    • 自动:系统监控、日志
    • 人工:用户使用,IT系统维护
  • 故障查明和记录

故障支持和恢复处理

以尽快恢复服务为主,不以根本上解决故障为目标

故障分析和定位

故障的调查分析这一步骤是在故障经由初步支持没有得到解决时进行的

故障终止

故障处理跟踪

感想:故障都终止了,感觉没有必要继续处理,这步有点多余

三、主要故障处理

主机故障恢复措施

  • 热备:主从 (主流)
  • 暖备:多主一从
  • 冷备:0从

数据库故障恢复措施

  • 事件故障:undo,系统
  • 系统故障:redo+undo,系统
  • 介质故障:重装DB,redo,DBA

网络故障恢复措施

  • 双主干
  • 开关控制技术
  • 路由器
  • 通信中件

四、问题控制与管理

概念

问题:

存在某个未知的潜在故障原因的一种情况,这种原因会导致一起和多起故障

已知错误:

问题经过诊断分析后找到故障产生的根本原因并指定出可能的解决方案时所处的状态

问题控制:

一个有关怎样有效处理问题的过程,其目的是发现故障产生的根本原因并向服务台提供有关应急措施的意见和建议

错误控制:

是管理、控制并成功纠正已知错误的过程,它通过变更请求向变更管理部门报告需要实施的变革,确保已知错误被完全消除,避免再次发生故障

问题预防:

在故障发生之前发现和解决有关问题和已知错误,从而使故障对服务的负面影响其与业务相关的成本降到最低的一种管理活动

问题管理和控制的目标

  • 将影响降到最低
  • 防止再次发生相同的故障
  • 预防问题

问题管理流程

问题控制

  • 发现和记录问题
  • 问题分类
  • 调查分析
    • Kepner&Tregoe法
    • 鱼骨图法
    • 头脑风暴法
    • 流程图法

错误控制

  • 发现和记录错误
  • 评价错误
  • 记录错误解决过程
  • 终止错误
  • 跟踪监督错误解决过程

问题预防

  • 趋势分析
  • 制定预防措施

管理报告

  • 事件报告
  • 产品质量
  • 管理效果
  • 常规问题管理与问题预防管理之间的关系
  • 问题状态和行动计划
  • 改进问题管理的意见和建议