Mímisbrunnr知恵の泉

← クラウドインフラ 一覧

🗺️ このノートは 第8章「SREと信頼性」のハブ です。

第8章 ── SREと信頼性

最終章は、ここまで作ってきたシステムを「どれだけ信頼できるか」を定量的に扱う SRE(Site Reliability Engineering)です。SREの核心は「信頼性は機能であり、エンジニアリングの対象」という見方。100%を目指すのでなく、ちょうどよい信頼性を SLO で定義し、その余裕(エラーバジェット)の範囲で速く出す。7章で集めた信号が、ここで信頼性の数値になります。

この章では、信頼性の定量化(SLI/SLO/エラーバジェット:08-01)、壊れたときの対応と学習(インシデント対応・ポストモーテム:08-02)、壊れる前提の設計(キャパシティと信頼性設計:08-03)、そして組織の配信能力を測る指標(DORA:08-04)を順に見ます。

トピック一覧

この章の位置づけ

クラウド・インフラ/SRE・DevOps 全体目次