🗺️ このノートは 第4章「ETLとデータパイプライン」のハブ です。
第4章 ── ETLとデータパイプライン
ここがデータエンジニアリングの“配管工事”の中心です。ソースからデータを引き、整え、届けるパイプラインを、壊れにくく・再実行できる形で作ります。変換をどこでやるか(04-01)、どう取り込むか(04-02)、失敗しても安全に作り直せるか(04-03)、データが正しいと保証できるか(04-04)、変換をどうコード化・テストするか(04-05)。
この章の通奏低音は「何度流しても結果が壊れない」設計です。
トピック一覧
- ETLとELT — 変換の場所(ロード前か後か)
- データ取り込み(バッチ・CDC) — 全件・増分・変更データキャプチャ
- べき等性と再実行 — 再実行しても結果が同じ設計
- データ品質とテスト — 検証・契約・観測
- SQL変換とdbt — 変換のコード化・テスト・リネージ
この章の位置づけ
- 取り込み先・変換先の物理基盤は第5章 第5章 データウェアハウスとレイクハウス 目次
- 大規模変換のエンジンは第6章 第6章 分散処理 目次、依存制御は第7章 ワークフローオーケストレーション
- 再実行の安全性は 分散システム の理論とも繋がる(ここでは設計実装を扱う)