ITシステムと同様、組織においてもカオスエンジニアリングのような考え方ができます。デル・テクノロジーズを創業したマイケル・デル氏は20代のころ、最高執行責任者(COO)と時々職務を交代し、互いの仕事ができるようにしていたといいます。要職にある人は替えが効かず、仕事の属人性が高まり、不在時にオペレーションが脆弱(ぜいじゃく)になりやすい。デル氏は属人性を排除したかったのでしょう。

 大がかりな演習や訓練でなくとも、皆さんの会社でもフィッシング攻撃の訓練やサイバー演習が定期的に実施されているところもあるかもしれません。災害への備えと同様に、タイムラインのようなインシデント対応マニュアルや演習・訓練で、障害に備えるにこしたことはないでしょう。

インシデント発生時の情報管理
クロノロジーとポストモーテム

 災害対応時の情報管理手法として「クロノロジー」という経時活動記録があります。混乱した状況下だからこそ、いつ何が起きたか、情報を時刻付きで記録していくことで情報管理を行い、組織的な活動が継続できるようにする必要があるのです。

 クロノロジーでは、ホワイトボードに起きたことや収集した情報、発信した情報を時系列で書いていきます。最終的には、ホワイトボードが埋まりきらないうちに電子化するのですが、これにより今何が起きていて、どのような方針でどのような活動を行うか、全員が共有することができます。情報の断絶や誤認、混乱を防ぐことができ、後からの振り返りにも役立ちます。

 クラウドサービスやウェブサービスを提供するようなネット企業では、システム障害やデータの損失などのインシデント発生時に、「ポストモーテム」と呼ばれる事後検証、振り返りを行い、文書にまとめます。ITにおける障害発生時のクロノロジーに近い取り組みです。

 ポストモーテムでは、インシデントが発生したときの状況をすべて記録し、障害などが落ち着いたところで再発防止のための議論を行います。特定の個人やチームの行動を非難したり処罰したりする目的ではなく、どこに原因があったのか、今後どう対応すればよいかに焦点を当てて、インシデントを見直します。

 クロノロジーやポストモーテムの考え方や手法は、災害やITサービスの障害発生時だけでなく、さまざまなタイプの組織で、何らかのインシデントが発生したときに応用できるのではないかと思います。