DICEでは、災害対応本部の本部長や自治体の担当者、各避難所の担当者、被災した人やマスコミなど、参加者がさまざまな役割を与えられて、災害対応を行っていきます。私が参加した演習では、ファシリテーターの人が難しい状況をどんどん生み出しながら、実際に役割を振られた参加者がどう対応するかということを予行演習していきました。予行演習とはいえ、決まったことを予定調和的に進めていくのではなく、いろいろとカオスな状況が生み出され、その中で訓練を行っていくのが印象に残っています。

障害・インシデント対応に
タイムラインやDICEの考えを応用

 企業の、特にITサービスやウェブサービスにおける障害やインシデントには、今、紹介した災害におけるタイムラインやDICEのような考え方・やり方を応用することができます。ここでは、グーグルにおけるインシデント管理の例を取り上げます。

 グーグルのサイト信頼性エンジニアリング(SRE)チームは、定期的に障害発生時の緊急対応訓練を行っています。インシデント管理手順には、関係者の役割や責任が定義されていて、タイムラインのように機能します。担当者は訓練セッションに参加し、担当者自身は知らされていないシナリオに沿って与えられる課題を、手順に従って解決していきます。こちらはDICEに非常によく似ています。

 似たような訓練や演習は、多くの企業や組織で行われています。例えばクラウドサービスのフリーでは、毎年10月に全社で障害訓練を実施しています。セキュリティインシデント対応チームがリアリティのある設定を用意して、実際にシステムに外部から侵入を行うなど、かなり実践的な内容だそうです。

 また、動画配信サービスのネットフリックスが取り入れていることで有名になった「カオスエンジニアリング」という手法があります。これは本番システムの一部に実際に障害を起こすというもの。通常、こうしたウェブサービスでは、1、2カ所の障害があっても、サービスが継続されるような仕組みが採用されています。その自動復旧の仕組みがきちんと働くかどうかを確認するのです。日本でもヤフーやクックパッドがカオスエンジニアリングを導入しています。