このように入念な可用性設計を行なっても、障害の発生する可能性はありますし、事例のように可用性設計が考えていた通りに機能しない場合もあります。障害を起こさないシステムを作るのがもちろん望ましいわけですが、サービス停止が起きてしまった場合に、いかにスピーディに業務を復旧するかという計画を立てておくことも重要です。事例では障害が発生した結果、現地にエンジニアを派遣して復旧するまでに1時間もかかってしまいました。しかし、少しでも復旧を早めるために、交換手順を現地保守員に周知しておいたり、他のシステムにアプリケーションをインストールしておき、遠隔からそちらを起動して切り替えるといった手段をあらかじめ考えておくことで、障害時のビジネスへの影響を軽減することが可能になります。
さらに、日常の運用・保守も可用性管理の上では重要です。事例で用いられているクラスタリングでは障害が発生し、切り替えが失敗した場合には、即座にサービス停止を引き起こします。このため、クラスタの場合には定期的にクラスタを手動で切り替え、正常性を確認するという方法がよくとられます。また、ソフトウェアへのパッチ適用や定期点検等も必要でしょう。これらのメンテナンス作業を速やかに行なうためには、計画的なダウンタイムを確保しておくことが重要です。
さらには第1回で話したとおり、稼働状態を分析することによりシステムの弱い箇所を特定し、そこを改善していきます。これにより、障害発生の頻度そのものを下げる、プロアクティブな可用性管理が可能になるわけです。
今回解説した可用性管理のプロセスをまとめると、以下のようになります(図1)。
![]() |
|---|
| 図1●可用性管理のプロセス(画像クリックで拡大) |
最近のクラスタシステムは事例のような切り替わりの見落としを防ぐために、障害管理ツールとの連携機能が提供されているものもあります。導入の際にはそのような機能があるかどうかもチェックしておきましょう。
協力:ネットワークマガジン
|
|
||||
|
|
|
|
|
|
|
|
||||