🗺️ このノートは 第7章「ストリーミングとオーケストレーション」のハブ です。
第7章 ── ストリーミングとオーケストレーション
最終章は「動かし続ける」ための仕組みです。イベントをリアルタイムに運ぶメッセージキュー/Kafka(07-01)、来た端から集計するストリーム処理とその難所である時間・遅延データ(07-02)、多数のジョブの依存と再実行を司るオーケストレーション/Airflow(07-03)、そして全体を統治するガバナンスとカタログ(07-04)。
パイプラインを「作る」から「安全に回し続ける・統治する」へと視点が移る章です。
トピック一覧
- メッセージキューとイベントストリーミング — pub/sub・ログ・Kafka
- ストリーム処理 — イベント時間・ウィンドウ・遅延データ・watermark
- ワークフローオーケストレーション — DAG・依存解決・スケジュール・再実行
- データガバナンスとカタログ — メタデータ・リネージ・品質・権限
この章の位置づけ
- バッチ/ストリームの選択は バッチ処理とストリーム処理、CDC配送は データ取り込み(バッチ・CDC)
- 再実行の安全性は べき等性と再実行、品質は データ品質とテスト
- メッセージ配送・順序保証の理論は 分散システム へ wikilink