インシデント管理

インシデント管理を行うことで、過去に発生した問題をナレッジとして蓄積することが可能です。インシデント管理ができていないと、属人化が進み、場当たり的な対応が増えてしまいます。ITILなどを参考に、自社にあったシンプルで使いやすいフローの構築をしてみましょう。

インシデント管理とは

インシデント管理では、運用中に発生した問題を扱う手順を予め決めておきます。

手順を決めることで、統一されたログを残すことが可能です。そのため、一貫性を持った追跡調査や情報共有を行うことが可能になります。結果、問題解決のスピードアップや精度向上などに役立てることが可能です。

インシデント管理を行わないと、問題に対する対応方法やログが個人に大きく依存してしまいます。そうなると、
・類似障害の再発
・復旧時間の長期化
・属人化
が進んでいきます。

インシデント管理の流れ

インシデント管理は次のような流れで行っていきます。
 1.インシデントの認識
 2.インシデントの記録
 3.診断、分類、解決、クローズ
 4.改善策の検討

1.インシデントの認識
監視などを通じて問題の認識を行います。

2.インシデントの記録
認識した問題をチケット登録します。

3.診断、分類、解決、クローズ
担当者がトラブルシュートを行い、問題を修正します。チケットに、コメントや調査結果を添付し問題をクローズします。

4.改善策の検討
解決したあとに、再発防止などの改善策を考えます。

インシデント管理のポイント

社内標準となるインシデント管理方法を決めていきましょう。その際、ITILなどが参考になります。ITILとは、ITサービス管理のベストプラクティスをまとめたものになります。

可能な限りシンプルにし、自社で使いやすいものを選択します。煩雑なものは長続きしません。

余裕があれば、監視システムなどと連動も検討します。監視をトリガーとして自動でチケット登録できれば、初回登録の手間を省くことが可能です。

インシデント管理表は、フォーマットを統一させます。メンバー間で共有できる状態にします。共通のフォーマットでログを記録し共有することで、インシデント内容の共有が進んでいきます。

インシデント管理の活用例

インシデント管理を行うことで、迅速な改善策を実施できた事例です。

高負荷障害によるアラートを検知したA社様。再起動により復旧実施。復旧後の調査によって原因となりそうなログを特定しました。

ログの文言をインシデント管理表で調べたところ、類似の事象を発見。その情報をもとに調査を進めることで迅速に根本原因を特定。対策を実施しました。

統一されたフォーマットでログを残しておくことで、問題の対応をナレッジとして活用することが可能です。

ディーネットの運用代行サービスでは

AWS運用代行サービスでは、弊社エンジニアがお客様環境で発生したインシデントの対応を代行しています。そのさいに、全てのお客様で発生したインシデント内容を記録し、一元管理しています。

情報が集約されたインシデント内容を活用することで、一次対応や二次対応の精度向上、スピード向上に役立てています。

最後までご覧いただきありがとうございます

この記事ではインシデント管理について解説しました。

インシデント管理を行うことで、過去に発生した問題をナレッジとして蓄積することが可能です。

インシデント管理ができていないと、属人化が進み、場当たり的な対応が増えてしまいます。ITILなどを参考に、自社にあったシンプルで使いやすいフローの構築をしてみましょう。