🗺️ このノートは 第8章「SREと信頼性」のハブ です。

第8章 ── SREと信頼性

最終章は、ここまで作ってきたシステムを「どれだけ信頼できるか」を定量的に扱う SRE（Site Reliability Engineering）です。SREの核心は「信頼性は機能であり、エンジニアリングの対象」という見方。100%を目指すのでなく、ちょうどよい信頼性を SLO で定義し、その余裕（エラーバジェット）の範囲で速く出す。7章で集めた信号が、ここで信頼性の数値になります。

この章では、信頼性の定量化（SLI/SLO/エラーバジェット：08-01）、壊れたときの対応と学習（インシデント対応・ポストモーテム：08-02）、壊れる前提の設計（キャパシティと信頼性設計：08-03）、そして組織の配信能力を測る指標（DORA：08-04）を順に見ます。

トピック一覧

SREとは・SLI/SLO/エラーバジェット — 信頼性の定量化・トイル・100%を目指さない
インシデント対応とポストモーテム — 役割分担・非難なき文化・再発防止
キャパシティと信頼性設計 — 冗長化・縮退・フェイルオーバー・カオス
DevOps文化とDORA 4指標 — デプロイ頻度・リードタイム・変更失敗率・MTTR

この章の位置づけ

信頼性の材料は7章の可観測性（メトリクス・ログ・トレース（3本柱））
自己修復の実装は4章（スケーリングと自己修復）・2章（プロセスとサービス管理（systemd））
速い復旧を支えるのは6章（デプロイ戦略（ローリング・ブルーグリーン・カナリア）・GitOpsと自動化）

← クラウド・インフラ／SRE・DevOps 全体目次