次にすべきことは、このインシデントにより影響を受けているエンドユーザーの業務を、正常な状態に戻すことです。通常トラブルが発生するとまず原因を究明しなければと思いがちですが、エンドユーザーがITに期待しているのは、何よりも自分の業務が支障なく続けられるということです。トラブルが起きた際の根本原因を解析するのも大事ですが、まずは障害によって止まったシステムを復旧し、業務を正常な状態に戻すことが重要です。
もちろん正式な修復は原因・解決策の判明を待たなければなりませんので、ここではあくまでも運用対処(Work-Around)になります。システムの可用性の尺度の1つにMTTR(平均故障復旧時間、故障が発生してから復旧するまでの平均時間。短いほどよい)がありますが、このMTTRを短縮するためにはこの運用対処の適用が効果を上げます。
これを実現するには過去に発生したインシデントと、それに対する運用対処方法を記録したデータベースが役に立ちます。データベースで過去の類似のインシデントを検索することで、適切な運用対処を短時間で見つけることができます。また、これらを共有できるようにしておくことで、夜間や休日で担当者が不在でも、サービス復旧が遅れるという致命的な事態を避けることができます。
なお、インシデント発生時に初動調査を行なう場合は、運用対処を特定するために必要な情報を得るという目的に絞ることが重要です。原因解析のための調査にいたずらに時間を浪費し、復旧を遅らせることのないように心がけましょう。あくまで問題解決はシステムの復旧作業とは分けて考えるべきです。
|
|
||||
|
|
|
|
|
|
|
|
||||