Mímisbrunnr知恵の泉

← クラウドインフラ 一覧

🎓 レベル:標準 | 重要度:A(必須)

📎 前提:SREとは・SLI/SLO/エラーバジェット | 関連:CI/CDとは・パイプラインインシデント対応とポストモーテム

要点(BLUF)

概念 ── DevOps は文化

かつて開発は「速く出したい」、運用は「壊したくない」と対立し、間に壁(サイロ)がありました。DevOps はこの壁を壊し、両者が同じ目標(速く・安全に届ける)を共有する文化です。CI/CD(CI/CDとは・パイプライン)・IaC(IaCとは・宣言的構成)・可観測性(メトリクス・ログ・トレース(3本柱))は、その文化を支える道具であって、文化そのものではありません。

「DevOps をやっているか」は曖昧になりがち。そこで客観的に測るのが DORA 指標です。

仕組み ── DORA の4指標

DORA(DevOps Research and Assessment)が長年の調査で見出した、配信能力を表す4つの指標(要最新確認の最新版定義)。

flowchart TB
    subgraph speed["速度(スループット)"]
      d1["デプロイ頻度:どれだけ頻繁に本番リリースするか"]
      d2["変更リードタイム:commit から本番稼働までの時間"]
    end
    subgraph stability["安定(品質)"]
      d3["変更失敗率:デプロイのうち障害を起こした割合"]
      d4["MTTR:障害からの平均復旧時間"]
    end
指標何を測るか良い状態効く施策
デプロイ頻度リリースの頻度高い(1日複数回)CI/CD・小さなバッチ
変更リードタイムcommit→本番の時間短いパイプライン自動化(CI/CDとは・パイプライン
変更失敗率障害を招いた変更の割合低い自動テスト・カナリア(デプロイ戦略(ローリング・ブルーグリーン・カナリア)
MTTR復旧までの平均時間短いロールバック・ポストモーテム(インシデント対応とポストモーテム

仕組み ── 速度と安定は両立する

直感に反しますが、DORAの中心的発見は「速い組織ほど安定している」。理由は、小さく頻繁に出すほど1回の変更が小さく、

つまり速度を上げる施策(自動化・小さいバッチ)が、そのまま安定も上げる。大きな変更を稀に出す方が、実はリスクが高い。エラーバジェット(SREとは・SLI/SLO/エラーバジェット)が「速度の上限」を、DORAが「速度と安定の現在地」を示します。

近年は5つ目として信頼性(運用パフォーマンス)が議論される。指標の定義・ベンチマークは毎年更新されるので要最新確認

なぜ測るのか

⚠️ よくある誤解・落とし穴

対応ラボ

なし(文化・指標トピック)。リードタイム/デプロイ頻度を支える自動化は CI/CDとは・パイプライン のラボで、MTTR を縮める復旧は GitOpsと自動化(git revert)で体験できる。

関連

第8章 SREと信頼性 目次