Mímisbrunnr知恵の泉

← クラウドインフラ 一覧

🎓 レベル:標準 | 重要度:A(必須)

📎 前提:SREとは・SLI/SLO/エラーバジェット | 関連:監視とアラート設計GitOpsと自動化

要点(BLUF)

概念 ── 止血が先、原因は後

障害中にやりがちな失敗が「原因究明に没頭してユーザー影響を放置」。SREの鉄則は逆——まず影響を止める(mitigate)。ロールバック・トラフィック迂回・機能フラグ停止で症状を消し、根本原因の調査は落ち着いてから。

flowchart LR
    detect["検知(アラート:07-02)"] --> triage["重大度の判定"]
    triage --> mitigate["止血(ロールバック・迂回)"]
    mitigate --> recover["復旧確認(SLI が戻る)"]
    recover --> postmortem["ポストモーテム(再発防止)"]

仕組み ── 役割分担(インシデント指揮)

規模が大きい障害ほど、全員が同じことをして混乱します。役割を分けます。

役割責任
インシデント指揮官(IC)全体統括・意思決定・優先順位。自分では手を動かさない
対応者(Ops)実際の調査・復旧作業
記録/連絡(Comms/Scribe)時系列の記録・関係者/顧客への状況連絡

ICは「交通整理」に徹し、対応者が作業に集中できるようにする。小規模なら兼任でも、役割という概念を持つだけで動きが整います。

仕組み ── ポストモーテムと非難なき文化

復旧後、何が起き・なぜ起き・どう直すかを文書化するのがポストモーテム。重要なのが blameless(非難なし)——「誰がミスしたか」でなく「なぜその仕組みがミスを許したか」を問う。

flowchart TB
    fact["時系列の事実(いつ何が起きたか)"] --> cause["根本原因(なぜ・5 Whys)"]
    cause --> impact["影響(エラーバジェット消費・ユーザー影響)"]
    impact --> action["再発防止アクション(担当・期限つき)"]
    action --> system["仕組みを直す(人を責めない)"]

なぜ非難しないか——人を責める文化では、人は事実を隠す。隠れた事実からは学べない。「誰でも同じ状況なら同じミスをした」と捉え、**仕組み(プロセス・自動化・ガードレール)**を直すから、再発が本当に止まります。アクションは「担当者と期限」を付けて追跡し、やりっぱなしにしない。

なぜこうするのか

⚠️ よくある誤解・落とし穴

対応ラボ

なし(運用プロセストピック)。素早い復旧の手段は デプロイ戦略(ローリング・ブルーグリーン・カナリア)GitOpsと自動化(git revert)のラボで、検知は メトリクス・ログ・トレース(3本柱) のラボで体験できる。

関連

第8章 SREと信頼性 目次