🗺️ このノートは 第7章「監視と可観測性」のハブ です。
第7章 ── 監視と可観測性
動かして・届けたシステムが本当に健全かを知る手段が可観測性(observability)です。可観測性とは「出てくる信号(メトリクス・ログ・トレース)から、中で何が起きているかを推し量れる度合い」。これが無ければ、障害は「ユーザーからの苦情」で初めて気づくことになります。SRE(第8章 SREと信頼性 目次)の SLO もアラートも、すべてここで集める信号の上に立ちます。
この章では、信号の3本柱(メトリクス・ログ・トレース:07-01)、人を起こすに値するアラートの設計(07-02)、サービスをまたぐ1リクエストの追跡(分散トレーシング:07-03)を順に見ます。
トピック一覧
- メトリクス・ログ・トレース(3本柱) — 3本柱・OpenTelemetry・Prometheus/Grafana
- 監視とアラート設計 — しきい値・症状ベース・SLOバーン・アラート疲れ
- 分散トレーシング — トレース・スパン・文脈伝播
この章の位置づけ
- 監視対象は3〜6章で作ったコンテナ・K8s・パイプライン
- トレースの背後にある分散システムの理論は 分散システム へ。ここは運用での使い方
- 集めた信号で信頼性を定量化するのが次章 SREとは・SLI/SLO/エラーバジェット