🗺️ このノートは 第8章「SREと信頼性」のハブ です。
第8章 ── SREと信頼性
最終章は、ここまで作ってきたシステムを「どれだけ信頼できるか」を定量的に扱う SRE(Site Reliability Engineering)です。SREの核心は「信頼性は機能であり、エンジニアリングの対象」という見方。100%を目指すのでなく、ちょうどよい信頼性を SLO で定義し、その余裕(エラーバジェット)の範囲で速く出す。7章で集めた信号が、ここで信頼性の数値になります。
この章では、信頼性の定量化(SLI/SLO/エラーバジェット:08-01)、壊れたときの対応と学習(インシデント対応・ポストモーテム:08-02)、壊れる前提の設計(キャパシティと信頼性設計:08-03)、そして組織の配信能力を測る指標(DORA:08-04)を順に見ます。
トピック一覧
- SREとは・SLI/SLO/エラーバジェット — 信頼性の定量化・トイル・100%を目指さない
- インシデント対応とポストモーテム — 役割分担・非難なき文化・再発防止
- キャパシティと信頼性設計 — 冗長化・縮退・フェイルオーバー・カオス
- DevOps文化とDORA 4指標 — デプロイ頻度・リードタイム・変更失敗率・MTTR
この章の位置づけ
- 信頼性の材料は7章の可観測性(メトリクス・ログ・トレース(3本柱))
- 自己修復の実装は4章(スケーリングと自己修復)・2章(プロセスとサービス管理(systemd))
- 速い復旧を支えるのは6章(デプロイ戦略(ローリング・ブルーグリーン・カナリア)・GitOpsと自動化)