障害対応は何から考えるべきか
システム運用の話になると、
「障害が起きたらどうするか」という問いが必ず出てきます。
しかし実際には、
障害が起きてから考え始めるのでは遅いことがほとんどです。
結論から言うと、
障害対応は「直し方」ではなく「考える順番」を決めるところから始まります。
障害対応で最初にやるべきこと
障害が起きた直後にやるべきことは、
いきなり原因を探すことではありません。
まず考えるべきなのは、
- 影響範囲はどこまでか
- 使えない状態が続くと何が困るか
という点です。
被害を広げないことが、最優先になります。
原因究明より先に状態を安定させる
原因を調べることは重要ですが、
それは「あとでも」できます。
障害対応の初期段階では、
- これ以上悪化しないようにする
- 一時的にでも使える状態に戻す
といった対応が求められます。
状態を安定させてから、
落ち着いて原因を調べる方が、結果的に早く解決します。
情報を集める順番
障害対応では、
情報の集め方にも順番があります。
- 今どうなっているか
- 直前に何が変わったか
- どの操作で起きたか
これらを、
ログや監視情報を使って整理します。
感覚や推測ではなく、
事実を集めることが重要です。
切り分けという考え方
障害対応では、
「どこまでが正常で、どこからがおかしいか」
を切り分けます。
- 処理の問題か
- データの問題か
- ネットワークの問題か
- 環境の問題か
一気に特定しようとせず、
範囲を狭めていくのが基本です。
復旧と恒久対応は分けて考える
障害対応には、
2つの段階があります。
- 復旧対応
-
まず使える状態に戻す
-
恒久対応
- 同じことが起きないようにする
この2つを混ぜてしまうと、
判断が遅れがちになります。
障害対応は個人プレーではない
障害対応は、
一人で抱え込むものではありません。
- 情報を共有する
- 判断を相談する
- 記録を残す
これらを行うことで、
対応の質と再現性が高まります。
まとめ
障害対応で大切なのは、
- 影響範囲を把握すること
- 状態を安定させること
- 事実にもとづいて切り分けること
です。
「早く直す」よりも、
「正しい順番で考える」ことが、
結果的に最短の解決につながります。
これで
システムを動かし続けるための視点
の章は完了です。


コメント