現代データスタックの地図｜データエンジニアリング

🎓 レベル：標準　|　重要度：A（必須）

📎 前提：データエンジニアリングとは・役割・バッチ処理とストリーム処理　|　関連：ETLとELT・データウェアハウス

要点（BLUF）

「現代データスタック（modern data stack）」は、クラウドDWH／レイクハウスを中心に、収集・変換・提供のツールを疎結合に組み合わせた構成。各段を専用ツールが担い、SQLとオブジェクトストレージで繋がる。
流れは 収集（Fivetran等）→ 保存（Snowflake/BigQuery/Databricks）→ 変換（dbt）→ 提供（BI・ML）。安価なストレージを背景に、変換を後ろ倒しにするELTが主流になった。
全体を縦に貫くのが オーケストレーション（Airflow等） と カタログ／ガバナンス。ツール名より「どの段の課題か」で地図を読むのがコツ。

概念 ── 一枚の地図で捉える

個々のツールは入れ替わりが激しい（要最新確認の領域）ですが、段の構造は安定しています。まず段で地図を持ち、ツールは「その段の選択肢」として後から差し替え可能にしておくのが賢い学び方です。

flowchart LR
    SRC["ソース（業務DB・SaaS・ログ・API）"] --> ING["収集・取り込み"]
    ING --> STO["保存（クラウドDWH／レイクハウス）"]
    STO --> TRF["変換（SQL・dbt）"]
    TRF --> SRV["提供（BI・ML・分析）"]
    ORC["オーケストレーション（依存・スケジュール）"] -.制御.-> ING
    ORC -.制御.-> TRF
    CAT["カタログ・ガバナンス（メタデータ・リネージ）"] -.横断.-> STO
    classDef u fill:#eef,stroke:#557
    class SRC,ING,STO,TRF,SRV u

段ごとのツール地図（代表例・要最新確認）

段	役割	代表ツール	本テキストの該当章
収集・取り込み	ソースから引き込む・CDC	Fivetran, Airbyte, Kafka Connect	データ取り込み（バッチ・CDC）
保存	分析向けに置く	Snowflake, BigQuery, Redshift, Databricks	第5章
変換	整形・集計・モデル化	dbt, Spark SQL	SQL変換とdbt・第6章
提供	可視化・分析・ML供給	Looker, Tableau, Metabase	メダリオンアーキテクチャ
オーケストレーション	依存・順序・再実行	Airflow, Dagster, Prefect	ワークフローオーケストレーション
ストリーミング	リアルタイム配信	Kafka, Flink	第7章
カタログ・品質	メタデータ・リネージ・検証	dbt docs, OpenMetadata, Great Expectations	データ品質とテスト・データガバナンスとカタログ

設計の勘所 ── なぜ「現代」スタックなのか

かつては高価なオンプレDWHの容量を節約するため、ロード前に変換するETLが主流でした。クラウドでストレージが激安・計算が弾力的になった結果、「まず生のままロードし、DWHの計算力で後から変換する」ELTが合理的になりました（→ ETLとELT）。

この転換が現代データスタックの背骨です。生データをそのまま保存しておけば、後から要件が変わっても変換をやり直すだけで済み、源に取りに戻る必要がありません。dbtが「SQLによる変換のコード化」で広く使われるのも、この“DWHの中で変換する”流れの帰結です。

なぜそうするか ── 疎結合と差し替え可能性

なぜ一体型でなく、段ごとに別ツールを繋ぐのか。各段を独立に最適化・交換できるからです。収集をAirbyteからFivetranに替えても、保存と変換はそのまま。SQLとオブジェクトストレージという共通インターフェースで繋がっているので、ベンダーロックインを避けつつ各段でベストを選べます。これは ER図とスキーマ設計の「疎結合」やソフトウェア工学のモジュール化と同じ発想です。

⚠️ よくある落とし穴

ツール名を覚えることを学習だと思う → ツールは2年で入れ替わる。段の役割と境界を覚える。
「全部入りプラットフォーム」を過信する → 便利だが、特定段で要件に合わないとき逃げ場がない。境界の見える疎結合が安全。
ELTだからと生データを無検証で貯め込む → “沼（data swamp）”化する。取り込み時の最低限の契約・品質（→ データ品質とテスト）とカタログ（→ データガバナンスとカタログ）が要る。

対応ラボ

なし（地図回）。次章から各段を動くSQL・変換で具体化していく。